2 min read

P 值的统计学定义与本质(四)

在医学检测领域,当检测结果显示阳性时,很多人会立刻陷入恐慌,认定自己大概率患病;就如同在机器学习模型评估中,将高准确率(Precision)的阳性预测误作真实阳性率这个误区的根源,均在于忽视了假阳性贡献主导的关键逻辑。

本文将结合 Todd Mitton(2024)关于公司金融中经济显著性与统计显著性的研究,以及经典罕见病检测案例,运用贝叶斯公式拆解 p 值的真实含义,精准澄清上述认知偏差。

一、p 值的核心:是\(\mathrm{P(D \mid H_0)}\),而非\(\mathrm{P(H_0 \mid D)}\)

很多算法工程师误以为 p 值是 “原假设为真的概率”,但 Mitton(2024)在其研究中明确指出,p 值的严格定义是:在原假设( )成立的前提下,观察到当前样本数据( )或更极端数据的概率,即\(\mathrm{P(D \mid H_0)}\),而非 “原假设为真的概率\(\mathrm{P(H_0 \mid D)}\)”(Mitton, 2024)。举个具体例子:若 p=0.05,它仅表示 “当\(\mathrm{H_0}\)为真时,出现当前数据或更极端结果的概率是 5%”,那么出现了,就非偶然,因此显著;绝不是 “\(\mathrm{H_0}\)为真的概率是 5%”。

二、p 值与显著性水平(\(\alpha\)):仅为 “证据强度” 的阈值

p 值的作用是与预先设定的 “显著性水平(\(\alpha\))” 对比,判断 “是否有足够证据拒绝原假设”,而非直接判定结果的 “真实性” 或 “实用价值”(Mitton, 2024):

  • \(\mathrm{p < \alpha}\)(通常\(\alpha=0.05\)):认为 “统计显著”,即数据反对\(\mathrm{H_0}\)的证据较强,可倾向支持备择假设(\(\mathrm{H_1}\));

  • \(\mathrm{p \geq \alpha}\):认为 “统计不显著”,即证据不足,无法拒绝\(\mathrm{H_0}\)—— 但这不是 “接受**** ****”,只是 “没有足够理由反对”,因为证据有假阳性的可能。

Mitton(2024)在分析公司金融研究时特别强调,即使 p 值满足 “统计显著”,也需结合 “经济显著性”(如变量对企业价值的实际影响幅度)判断结果的实用价值,避免陷入 “唯 p 值论” 的误区。在机器学习场景中,这类似于在模型达到统计显著后,还需评估其在实际业务场景中的效果提升(如降低欺诈损失金额)。

三、贝叶斯公式: “模型预测阳性 = 真实阳性” 的谬误

为什么人们会混淆\(\mathrm{P(D \mid H_0)}\)\(\mathrm{P(H_0 \mid D)}\)?核心是忽略了贝叶斯公式中 “先验概率” 和 “全概率” 的联动作用。贝叶斯公式的完整形式为(Mitton, 2024):

\(\mathrm{P(H_0 \mid D)} = \frac{\mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)}}{\mathrm{P(D)}}\)

其中:

  • \(\mathrm{P(H_0)}\)\(\mathrm{H_0}\)先验概率(数据观察前,对\(\mathrm{H_0}\)的初始信念,如异常样本的基础发生率);

  • \(\mathrm{P(D)}\):数据\(\mathrm{D}\)全概率(所有可能导致\(\mathrm{D}\)的概率总和,公式为\(\mathrm{P(D) = P(D \mid H_0)P(H_0) + P(D \mid H_1)P(H_1)}\));

  • \(\mathrm{H_1}\):备择假设(与\(\mathrm{H_0}\)互斥且穷尽,如 “样本正常”)。

我们用 “罕见病检测” 案例,将这个公式落地 —— 这是最能体现 “假阳性贡献主导” 的经典场景,在机器学习的罕见样本检测(如金融欺诈检测)中同样适用。

1. 案例设定:罕见病检测的已知条件

  • 事件定义

    • \(\mathrm{H_0}\):个体患有该罕见病(原假设 / 目标事件);

    • \(\mathrm{H_1}\):个体未患有该罕见病(备择假设);

    • \(\mathrm{D}\):检测结果为阳性(观察到的数据)。

  • 已知概率(符合现实中罕见病的特征):

    • 疾病基础发病率(\(\mathrm{H_0}\)的先验概率):\(\mathrm{P(H_0)} = 0.1\% = 0.001\)

    • 未患病概率(\(\mathrm{H_1}\)的先验概率):\(\mathrm{P(H_1)} = 1 - \mathrm{P(H_0)} = 0.999\)

    • 检测灵敏度(\(\mathrm{H_0}\)成立时观察到\(\mathrm{D}\)的概率):\(\mathrm{P(D \mid H_0)} = 99\% = 0.99\)(易被误当作 “阳性即患病” 的概率,类似模型的真阳性率);

    • 检测假阳性率(\(\mathrm{H_1}\)成立时观察到\(\mathrm{D}\)的概率):\(\mathrm{P(D \mid H_1)} = 1\% = 0.01\)

2. 关键计算 1:全概率\(\mathrm{P(D)}\)—— 假阳性贡献占主导

全概率\(\mathrm{P(D)}\)是 “所有可能导致检测阳性的概率总和”,需同时考虑 “真阳性”(患病且阳性)和 “假阳性”(未患病但阳性)的贡献:

\(\mathrm{P(D)} = \mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)} + \mathrm{P(D \mid H_1)} \times \mathrm{P(H_1)}\)

代入数值计算:

\(\begin{align*}\mathrm{P(D)} &= 0.99 \times 0.001 + 0.01 \times 0.999 \\&= 0.00099 + 0.00999 \\&= 0.01098\end{align*}\)

这里的核心发现是:假阳性贡献( )是真阳性贡献( )的 10 倍,在总阳性概率(\(\mathrm{P(D)} = 0.01098\))中占比超 91%(\(0.00999 / 0.01098 \approx 91\%\))。在机器学习的不平衡数据集场景下,这种现象同样普遍存在,大量负样本中的少量误判会主导模型的整体误报结果。

3. 关键计算 2:后验概率\(\mathrm{P(H_0 \mid D)}\)—— 阳性≠高真实概率

我们真正关心的是 “检测阳性时,个体真正患病的概率”(\(\mathrm{P(H_0 \mid D)}\)),将\(\mathrm{P(D)}\)代入贝叶斯公式:

\(\begin{align*}\mathrm{P(H_0 \mid D)} &= \frac{\mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)}}{\mathrm{P(D)}} \\&= \frac{0.99 \times 0.001}{0.01098} \\&\approx 0.0901 \quad (\text{即} \ 9.01\%)\end{align*}\)

结果令人意外:即使检测呈阳性,真正患病的概率仅约 9%—— 这与 “检测灵敏度 99%” 带来的直觉完全相反。类似地,在机器学习中,模型高召回率下的阳性预测也可能存在大量误判,需要结合先验概率综合评估。

四、假阳性为何能 “主导”?高基数抵消低假阳性率

假阳性贡献之所以能主导总阳性概率,核心逻辑是\(\mathrm{H_1}\)的先验概率(未患病群体基数)极高,足以抵消其低假阳性率的影响(Mitton, 2024):

  • 虽然假阳性率(\(\mathrm{P(D \mid H_1)} = 0.01\))远低于检测灵敏度(\(\mathrm{P(D \mid H_0)} = 0.99\)),但未患病群体占比(\(\mathrm{P(H_1)} = 0.999\))是患病群体(\(\mathrm{P(H_0)} = 0.001\))的 999 倍;

  • 这种 “基数悬殊” 使得 “低假阳性率 × 大基数” 的乘积(0.00999),最终远超 “高灵敏度 × 小基数” 的乘积(0.00099),成为总阳性概率的主要来源。

这也解释了为什么在罕见病检测、低发生率事件(如 fraud 识别)中,“阳性结果” 的可信度往往远低于检测灵敏度 —— 忽略先验概率的 “概率反演”,是导致误判的核心原因。在机器学习中,这对应于处理不平衡数据集时,模型的阳性预测结果需要结合样本先验分布重新校准。

五、总结:跳出误区的 3 个关键启示

  1. 明确 p 值的边界:p 值是\(\mathrm{P(D \mid H_0)}\),不是 “原假设为真的概率”,更不能直接等同于 “模型效果的实用价值”。正如 Mitton(2024)在公司金融研究中强调的,需结合 “经济显著性” 判断结果意义。在机器学习中,类似地需要结合业务指标(如成本节约、收益提升)评估模型价值。

  2. 重视先验概率:在模型评估、风险预测等场景中,先验概率(如事件基础发生率、样本分布比例)是决定预测准确性的关键变量,忽略它会导致严重误判。

  3. 用贝叶斯思维补全逻辑:当需要从 “模型预测” 反推 “真实情况” 时(如 “阳性预测→真实阳性”“显著结果→有效模型”),务必通过贝叶斯公式结合全概率计算,避免陷入 “条件概率颠倒” 的误区。在处理不平衡数据集或低概率事件预测时,贝叶斯校准是优化模型可靠性的重要手段。

参考文献

Mitton, T. (2024). Economic significance in corporate finance. The Review of Corporate Finance Studies, 13(1), 38–79. https://doi.org/10.1093/rcfs/cfac008