1 min read

从1+2+3+…=-1/12:数学逻辑的跨领域启发

在弦理论的相关内容中,常会出现一个有些反直觉的数学结论:

\[1+2+3+4+\dots = -\frac{1}{12}\]

单看这个式子,很容易和我们日常熟悉的加法认知产生偏差。本文就先从这个结论的数学本质讲起,梳理它和弦理论的深层关联,再进一步聊聊这套底层逻辑,能给机器学习、支付风控领域带来哪些启发。

一、这个结论的数学本质

首先要明确的是,这个式子中的"等于",和我们日常使用的常规加法求和,并不是同一个定义。它的严谨推导,来自黎曼ζ函数的解析延拓理论。

这里的ζ是第6个希腊字母,大写为Ζ,小写为ζ,相关读音与核心含义说明如下:

  1. 标准读音 国际音标标注为/ˈziːtə/(英式发音)、/ˈzeɪtə/(美式发音),中文通用音译为泽塔(学术交流中也有少量译作"截塔",以"泽塔"最为通用),日常交流中可直接读作"黎曼泽塔函数"。 补充提示:注意和希腊字母ξ(读作"克西")区分,二者字形、读音、含义均不同,避免混淆。

  2. 核心含义 这个符号由德国数学家黎曼在1859年的数论经典论文中正式使用,用来命名这个以他名字定义的复变函数。黎曼ζ函数是连接离散级数求和与连续复变函数性质的核心工具,也是数论、复分析领域的基础函数,我们讨论的这个反直觉求和结论,正是基于这个函数的核心数学性质推导而来。

我们日常使用的加法求和,只适用于收敛级数——也就是随着项数增加,级数的和会无限趋近于一个确定的有限数值。而1+2+3+…是典型的发散级数,随着项数增加,和会持续递增并趋向无穷大,在常规的求和规则下,它没有确定的有限结果。

这个结论的诞生,核心是黎曼ζ函数的解析延拓,核心逻辑分为三层:

  1. 黎曼ζ函数的基础定义为\(\zeta(s) = \frac{1}{1^s}+\frac{1}{2^s}+\frac{1}{3^s}+\dots\),当复参数s的实部大于1时,这个级数是收敛的,有确定的计算结果;
  2. 当复参数s的实部小于等于1时,原级数会进入发散状态,常规求和方法无法计算有效结果,比如当s=-1时,ζ函数的展开式就变成了1+2+3+…的发散级数;
  3. 数学家黎曼通过解析延拓的方法,基于函数在收敛域内的全局自洽解析结构,把ζ函数的定义域唯一扩展到了整个复平面,最终计算得到了严格自洽的结果:\(\zeta(-1)=-\frac{1}{12}\)。

大家偶尔看到的三步错位相加推导,只是这个严谨数学结论的通俗化简化。它的核心价值,不是证明"无穷大等于负数",而是提供了一套标准化的数学方法:对于失控发散的系统,可以通过严格的数学约束,剥离掉无效的发散部分,提取出唯一自洽、具备实际应用价值的有限有效值。这也是这套逻辑能跨领域应用的核心主线。

二、这个数学结论和弦理论的深层关联

这套名为正规化的数学工具,最早的系统性应用场景,就是弦理论。甚至可以说,没有-1/12对应的正规化赋值,弦理论的数学框架就无法解决发散问题,难以形成自洽的理论体系。

弦理论的核心假设,是把构成世界的基本粒子,定义为一段持续振动的一维弦。和琴弦通过不同振动频率产生不同音色的逻辑相似,弦的不同振动模式,对应着不同的基本粒子。量子力学的基础结论显示,任何振动模式都存在最小的零点能,即便在绝对零度的环境中也不会消失。弦的振动频率以整数倍无限叠加,把所有振动模式的零点能求和,就会得到和1+2+3+…完全一致的发散级数,和趋向无穷大。

无穷大的能量结果,意味着弦无法形成稳定的存在状态,会让整个理论框架失去物理意义,这也是弦理论发展早期遇到的核心理论困境。物理学家通过引入黎曼ζ正规化方法,把发散的无穷大替换成解析延拓后的有限有效值-1/12,让整套理论方程得到了有限且自洽的计算结果,同时还直接推导出了弦理论允许的时空维度:玻色弦理论要求时空维度为26维,超弦理论要求时空维度为10维,也就是9维空间加1维时间的组合。

简单来说,-1/12对应的正规化方法,是弦理论化解发散危机、构建自洽时空框架的核心数学基础。

三、相关理论的实验验证边界

关于这套理论体系的实验验证,我们可以从两个层面分开来看,能更清晰地理解它的现实支撑。

第一个层面,是-1/12对应的正规化方法,已经通过物理实验得到了明确验证。最具代表性的就是卡西米尔效应:在真空环境中放置两块平行金属板,板间只能容纳特定波长的量子涨落,板内外的真空能差值,本质就是两个发散级数的差值,必须通过ζ正规化方法才能计算得到有限的作用力结果,-1/12也会在计算过程中自然出现。卡西米尔效应已经通过高精度物理实验完成测量,实测数值和理论计算结果完全吻合,充分证明了正规化方法在量子场论体系中,完全符合现实世界的物理规律。

第二个层面,是弦理论本身,目前还没有获得直接的实验验证,在现有技术条件下也存在极高的验证难度。弦的振动尺度是普朗克长度,约为\(10^{-35}\)米,而当前全球性能最强的大型强子对撞机,可探测的最小尺度约为\(10^{-19}\)米,二者存在16个数量级的差距,相当于用观测太阳系的分辨率,去识别一粒沙子的微观结构。弦理论预言的额外维度、超对称粒子、微型黑洞等物理现象,至今也没有获得确凿的实验信号。截至目前,弦理论仍是一套数学上高度自洽的理论框架,尚未成为可通过实验完成证实或证伪的完备物理理论。

四、对机器学习领域的启发

从理论物理向应用技术延伸,这套正规化逻辑,在机器学习领域同样有很强的参考价值,尤其是能帮我们更清晰地理解深度学习与大语言模型的核心运行逻辑。它的核心根源在于,机器学习需要解决的核心问题,和发散级数的正规化处理,存在完全同构的底层逻辑。

自然数求和与正规化的核心逻辑 机器学习的对应痛点与解法
常规求和下,级数发散为无穷大,不可计算、无实际意义 高维模型拟合中,参数、梯度、损失发散,过拟合至噪声数据,不可泛化、无实用意义
用正规化剥离发散的无效噪声,提取唯一自洽的有效值 用正则化剥离过拟合的无效部分,提取具备泛化能力的稳定解
解析延拓:从已知收敛域,唯一延拓到未知发散域 分布外泛化:从训练集的已知数据,泛化至未见过的分布外场景

简单来说,机器学习的核心目标,就是为失控、无界的高维模型系统,通过严格的约束条件,赋予一个有限、自洽、可泛化的有效解,这和-1/12的生成逻辑是完全一致的。

这套逻辑给机器学习带来的启发,主要集中在三个核心方向:

  1. 模型的稳定性,来自对发散部分的有效约束。超宽网络与大语言模型之所以能具备更优的训练稳定性,核心原因之一,就是通过正规化方法,解决了无限宽网络下梯度求和的发散问题,让模型能收敛到稳定的全局最优解。即便是大语言模型的缩放定律,其核心的幂律衰减公式,本质也和黎曼ζ函数的解析延拓特性直接相关。

  2. 模型的泛化能力,核心是学到全局自洽的结构,而非局部的拟合规则。大语言模型能处理训练集里没见过的场景,本质和解析延拓的逻辑一致:只有学到了训练数据背后全局自洽的底层结构,才能把预测能力稳定扩展到未知场景。很多模型拟合精度高但泛化能力差,核心就是只学到了训练集的局部拟合规则,没有捕捉到数据背后的全局结构。

  3. 大模型的可控性,本质是一套人类偏好的正规化约束。大语言模型原生的生成能力极强,但容易出现幻觉、有害生成等失控问题,本质是模型的能力已经发散到了现有约束的边界之外。而RLHF、DPO等主流对齐技术,本质就是一套基于人类偏好的正规化体系,通过约束剥离模型发散的有害内容,保留有价值的生成能力,让模型从失控状态转化为可控、实用的工具。

五、对支付风控领域的启发

这套看似抽象的数学逻辑,在支付风控的产业场景中,同样能带来非常落地的启发,甚至能帮我们跳出很多长期存在的行业困境。

支付风控领域长期存在一些难以突破的循环:案件驱动的规则迭代,让规则库规模无序膨胀,引发规则冲突、误杀率攀升、运营成本激增;新型欺诈模式、新商户冷启动场景下黑样本缺失,让传统有监督模型失效;风险阈值的局部调整,常常陷入误杀率与漏判率反向波动的循环。这些痛点的核心根源,和发散级数的失控状态是完全同构的,而正规化逻辑,正好为这些问题提供了系统性的解决思路。

正规化的核心逻辑 支付风控的对应痛点与解法
级数无限累加,最终发散为无穷大,完全不可用 规则无限叠加、特征无限膨胀,最终体系失控,陷入全拦或全放的无效状态
正规化剥离无效发散部分,提取唯一自洽的有效值 风险正规化剥离冗余规则、过拟合噪声,确定稳定的风险边界
解析延拓从已知收敛域,扩展到未知发散域 从已知正常交易数据,扩展至无样本的新型欺诈、冷启动场景

简单来说,支付风控的核心矛盾,从来不是欺诈手段的快速迭代,而是试图用有限的局部规则,去对抗无穷的风险模式;而正规化思维,正是为这个失控的无穷系统,找到一个全局自洽、稳定可用的有限解。

这套逻辑在支付风控场景中的落地启发,主要有三点:

  1. 用规则正规化,跳出规则无限膨胀的恶性循环。案件驱动的无限加规则,和自然数无限累加最终发散为无穷大的过程完全一致。正规化思维给出的解决思路,是摒弃案件驱动的规则堆料,转向结构驱动的规则正规化:剥离冗余、过拟合历史案件的噪声型规则,只保留能刻画风险本质、全局自洽的核心规则集。比如在跨境跑分欺诈的防控中,叠加十余条细分规则往往会引发大规模误杀,而锚定资金流转符合正常商业逻辑、交易行为与商户经营类目自洽这两条核心约束,既能覆盖绝大多数欺诈行为,也能把误杀率控制在极低水平。

  2. 用解析延拓的思路,解决冷启动与零样本风控难题。新型欺诈、新商户冷启动场景下的黑样本缺失,和黎曼ζ函数在s≤1区域内原级数无定义、无法计算的状态完全一致。解析延拓的逻辑,正好提供了破局路径:基于已知、有充足数据的正常交易收敛域,学习全局自洽的正常行为结构,再把这个结构唯一延拓到未知、无数据的新场景,实现无监督的风险预判。这也是当前前沿冷启动风控体系的底层核心,新商户上线首日无需历史数据,就能基于全量正常商户的行为结构,精准拦截欺诈交易。

  3. 用全局正规化,平衡误杀与漏判的长期矛盾。风控阈值的调整,常常陷入收紧则误杀飙升、放宽则漏判反弹的循环,这和1-1+1-1+…级数在0和1之间无限交替、无法得到稳定值的状态完全一致。正规化思维的解决思路,是摒弃为单次案件调整局部阈值的操作,锚定资金损失、误杀引发的商誉损失、业务增长影响三者构成的全局总损失,确定唯一自洽的最优平衡点。这也打破了风控只能作为业务刹车的固有认知,优质风控的核心目标,从来不是零资金损失,而是保障整个支付生态在可控风险下的最优增长。

六、最终的总结

从一个反直觉的数学结论,到弦理论的时空框架构建,再到机器学习的底层支撑、支付风控的产业落地,贯穿所有领域的,是几条具备普适性的底层逻辑,也是这套内容带来的核心启发。

第一,日常认知的边界,不等于真理的边界。自然数求和得到负分数的结论,看似违背基础的算术常识,却在更广阔的复变函数框架下严格自洽,还能有效解释现实世界的物理规律。我们不必把局部场景下的常识,等同于事物的全部面貌。

第二,面对无穷的失控,约束的价值永远高于无节制的堆料。无穷发散的级数,无法通过无限累加得到稳定解,唯有通过正规化的约束,才能提取出有效有效值;无穷迭代的欺诈模式,无法通过无限叠加规则实现全面防控,唯有通过全局自洽的核心约束,才能框定风险边界;大模型的无穷生成能力,无法通过无限堆砌数据实现可控,唯有通过合理的对齐约束,才能转化为实用工具。

第三,泛化与预判能力的核心,永远是全局自洽的结构,而非局部的精准拟合。解析延拓的成立,核心依赖函数在收敛域内的全局自洽结构;模型的强泛化能力,核心源于对数据背后全局结构的学习,而非对训练集的死记硬背;风控体系对未知风险的预判能力,核心来自对正常交易全局结构的定义,而非对所有已知漏洞的被动封堵。

第四,基础研究的长期价值,无法通过短期的实用性来评判。黎曼、欧拉、拉马努金等数学家对发散级数的研究,在当时并没有体现出直接的应用价值,却在百年之后,成为弦理论、人工智能、金融风控等多个领域的核心工具。那些看似无用的基础研究,往往是未来产业突破的核心伏笔。

这也是数学的核心魅力所在:一个百年前形成的抽象数学结论,跨越了基础科学与产业实践的边界,至今仍能为不同领域的从业者,带来底层的认知革新与方法论升级。