P 值的统计学定义与本质（四）贝叶斯公式与假阳性主导

在医学检测领域，当检测结果显示阳性时，很多人会立刻陷入恐慌，认定自己大概率患病；就如同在机器学习模型评估中，将高准确率（Precision）的阳性预测误作真实阳性率这个误区的根源，均在于忽视了假阳性贡献主导的关键逻辑。

本文将结合 Todd Mitton（2024）关于公司金融中经济显著性与统计显著性的研究，以及经典罕见病检测案例，运用贝叶斯公式拆解 p 值的真实含义，精准澄清上述认知偏差。

一、p 值的核心：是\(\mathrm{P(D \mid H_0)}\)，而非\(\mathrm{P(H_0 \mid D)}\)

很多算法工程师误以为 p 值是 “原假设为真的概率”，但 Mitton（2024）在其研究中明确指出，p 值的严格定义是：在原假设（）成立的前提下，观察到当前样本数据（）或更极端数据的概率，即\(\mathrm{P(D \mid H_0)}\)，而非 “原假设为真的概率\(\mathrm{P(H_0 \mid D)}\)”（Mitton, 2024）。举个具体例子：若 p=0.05，它仅表示 “当\(\mathrm{H_0}\)为真时，出现当前数据或更极端结果的概率是 5%”，那么出现了，就非偶然，因此显著；绝不是 “\(\mathrm{H_0}\)为真的概率是 5%”。

二、p 值与显著性水平（\(\alpha\)）：仅为 “证据强度” 的阈值

p 值的作用是与预先设定的 “显著性水平（\(\alpha\)）” 对比，判断 “是否有足够证据拒绝原假设”，而非直接判定结果的 “真实性” 或 “实用价值”（Mitton, 2024）：

若\(\mathrm{p < \alpha}\)（通常\(\alpha=0.05\)）：认为 “统计显著”，即数据反对\(\mathrm{H_0}\)的证据较强，可倾向支持备择假设（\(\mathrm{H_1}\)）；
若\(\mathrm{p \geq \alpha}\)：认为 “统计不显著”，即证据不足，无法拒绝\(\mathrm{H_0}\)—— 但这不是 “接受**** ****”，只是 “没有足够理由反对”，因为证据有假阳性的可能。

Mitton（2024）在分析公司金融研究时特别强调，即使 p 值满足 “统计显著”，也需结合 “经济显著性”（如变量对企业价值的实际影响幅度）判断结果的实用价值，避免陷入 “唯 p 值论” 的误区。在机器学习场景中，这类似于在模型达到统计显著后，还需评估其在实际业务场景中的效果提升（如降低欺诈损失金额）。

三、贝叶斯公式： “模型预测阳性 = 真实阳性” 的谬误

为什么人们会混淆\(\mathrm{P(D \mid H_0)}\)与\(\mathrm{P(H_0 \mid D)}\)？核心是忽略了贝叶斯公式中 “先验概率” 和 “全概率” 的联动作用。贝叶斯公式的完整形式为（Mitton, 2024）：

\(\mathrm{P(H_0 \mid D)} = \frac{\mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)}}{\mathrm{P(D)}}\)

其中：

\(\mathrm{P(H_0)}\)：\(\mathrm{H_0}\)的先验概率（数据观察前，对\(\mathrm{H_0}\)的初始信念，如异常样本的基础发生率）；
\(\mathrm{P(D)}\)：数据\(\mathrm{D}\)的全概率（所有可能导致\(\mathrm{D}\)的概率总和，公式为\(\mathrm{P(D) = P(D \mid H_0)P(H_0) + P(D \mid H_1)P(H_1)}\)）；
\(\mathrm{H_1}\)：备择假设（与\(\mathrm{H_0}\)互斥且穷尽，如 “样本正常”）。

我们用 “罕见病检测” 案例，将这个公式落地 —— 这是最能体现 “假阳性贡献主导” 的经典场景，在机器学习的罕见样本检测（如金融欺诈检测）中同样适用。

1. 案例设定：罕见病检测的已知条件

事件定义：
- \(\mathrm{H_0}\)：个体患有该罕见病（原假设 / 目标事件）；
- \(\mathrm{H_1}\)：个体未患有该罕见病（备择假设）；
- \(\mathrm{D}\)：检测结果为阳性（观察到的数据）。
已知概率（符合现实中罕见病的特征）：
- 疾病基础发病率（\(\mathrm{H_0}\)的先验概率）：\(\mathrm{P(H_0)} = 0.1\% = 0.001\)；
- 未患病概率（\(\mathrm{H_1}\)的先验概率）：\(\mathrm{P(H_1)} = 1 - \mathrm{P(H_0)} = 0.999\)；
- 检测灵敏度（\(\mathrm{H_0}\)成立时观察到\(\mathrm{D}\)的概率）：\(\mathrm{P(D \mid H_0)} = 99\% = 0.99\)（易被误当作 “阳性即患病” 的概率，类似模型的真阳性率）；
- 检测假阳性率（\(\mathrm{H_1}\)成立时观察到\(\mathrm{D}\)的概率）：\(\mathrm{P(D \mid H_1)} = 1\% = 0.01\)。

2. 关键计算 1：全概率\(\mathrm{P(D)}\)—— 假阳性贡献占主导

全概率\(\mathrm{P(D)}\)是 “所有可能导致检测阳性的概率总和”，需同时考虑 “真阳性”（患病且阳性）和 “假阳性”（未患病但阳性）的贡献：

\(\mathrm{P(D)} = \mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)} + \mathrm{P(D \mid H_1)} \times \mathrm{P(H_1)}\)

代入数值计算：

\(\begin{align*}\mathrm{P(D)} &= 0.99 \times 0.001 + 0.01 \times 0.999 \\&= 0.00099 + 0.00999 \\&= 0.01098\end{align*}\)

这里的核心发现是：假阳性贡献（）是真阳性贡献（）的 10 倍，在总阳性概率（\(\mathrm{P(D)} = 0.01098\)）中占比超 91%（\(0.00999 / 0.01098 \approx 91\%\)）。在机器学习的不平衡数据集场景下，这种现象同样普遍存在，大量负样本中的少量误判会主导模型的整体误报结果。

3. 关键计算 2：后验概率\(\mathrm{P(H_0 \mid D)}\)—— 阳性≠高真实概率

我们真正关心的是 “检测阳性时，个体真正患病的概率”（\(\mathrm{P(H_0 \mid D)}\)），将\(\mathrm{P(D)}\)代入贝叶斯公式：

\(\begin{align*}\mathrm{P(H_0 \mid D)} &= \frac{\mathrm{P(D \mid H_0)} \times \mathrm{P(H_0)}}{\mathrm{P(D)}} \\&= \frac{0.99 \times 0.001}{0.01098} \\&\approx 0.0901 \quad (\text{即} \ 9.01\%)\end{align*}\)

结果令人意外：即使检测呈阳性，真正患病的概率仅约 9%—— 这与 “检测灵敏度 99%” 带来的直觉完全相反。类似地，在机器学习中，模型高召回率下的阳性预测也可能存在大量误判，需要结合先验概率综合评估。

四、假阳性为何能 “主导”？高基数抵消低假阳性率

假阳性贡献之所以能主导总阳性概率，核心逻辑是\(\mathrm{H_1}\)的先验概率（未患病群体基数）极高，足以抵消其低假阳性率的影响（Mitton, 2024）：

虽然假阳性率（\(\mathrm{P(D \mid H_1)} = 0.01\)）远低于检测灵敏度（\(\mathrm{P(D \mid H_0)} = 0.99\)），但未患病群体占比（\(\mathrm{P(H_1)} = 0.999\)）是患病群体（\(\mathrm{P(H_0)} = 0.001\)）的 999 倍；
这种 “基数悬殊” 使得 “低假阳性率 × 大基数” 的乘积（0.00999），最终远超 “高灵敏度 × 小基数” 的乘积（0.00099），成为总阳性概率的主要来源。

这也解释了为什么在罕见病检测、低发生率事件（如 fraud 识别）中，“阳性结果” 的可信度往往远低于检测灵敏度 —— 忽略先验概率的 “概率反演”，是导致误判的核心原因。在机器学习中，这对应于处理不平衡数据集时，模型的阳性预测结果需要结合样本先验分布重新校准。

五、总结：跳出误区的 3 个关键启示

明确 p 值的边界：p 值是\(\mathrm{P(D \mid H_0)}\)，不是 “原假设为真的概率”，更不能直接等同于 “模型效果的实用价值”。正如 Mitton（2024）在公司金融研究中强调的，需结合 “经济显著性” 判断结果意义。在机器学习中，类似地需要结合业务指标（如成本节约、收益提升）评估模型价值。
重视先验概率：在模型评估、风险预测等场景中，先验概率（如事件基础发生率、样本分布比例）是决定预测准确性的关键变量，忽略它会导致严重误判。
用贝叶斯思维补全逻辑：当需要从 “模型预测” 反推 “真实情况” 时（如 “阳性预测→真实阳性”“显著结果→有效模型”），务必通过贝叶斯公式结合全概率计算，避免陷入 “条件概率颠倒” 的误区。在处理不平衡数据集或低概率事件预测时，贝叶斯校准是优化模型可靠性的重要手段。

参考文献

Mitton, T. (2024). Economic significance in corporate finance. The Review of Corporate Finance Studies, 13(1), 38–79. https://doi.org/10.1093/rcfs/cfac008

P 值的统计学定义与本质（四）贝叶斯公式与假阳性主导

P 值的统计学定义系列导航

一、p 值的核心：是\(\mathrm{P(D \mid H_0)}\)，而非\(\mathrm{P(H_0 \mid D)}\)

二、p 值与显著性水平（\(\alpha\)）：仅为 “证据强度” 的阈值

三、贝叶斯公式： “模型预测阳性 = 真实阳性” 的谬误

1. 案例设定：罕见病检测的已知条件

2. 关键计算 1：全概率\(\mathrm{P(D)}\)—— 假阳性贡献占主导

3. 关键计算 2：后验概率\(\mathrm{P(H_0 \mid D)}\)—— 阳性≠高真实概率

四、假阳性为何能 “主导”？高基数抵消低假阳性率

五、总结：跳出误区的 3 个关键启示

参考文献

P 值的统计学定义系列导航

P 值的统计学定义与本质（四）贝叶斯公式与假阳性主导

P 值的统计学定义 系列导航

一、p 值的核心：是\(\mathrm{P(D \mid H_0)}\)，而非\(\mathrm{P(H_0 \mid D)}\)

二、p 值与显著性水平（\(\alpha\)）：仅为 “证据强度” 的阈值

三、贝叶斯公式： “模型预测阳性 = 真实阳性” 的谬误

1. 案例设定：罕见病检测的已知条件

2. 关键计算 1：全概率\(\mathrm{P(D)}\)—— 假阳性贡献占主导

3. 关键计算 2：后验概率\(\mathrm{P(H_0 \mid D)}\)—— 阳性≠高真实概率

四、假阳性为何能 “主导”？高基数抵消低假阳性率

五、总结：跳出误区的 3 个关键启示

参考文献

P 值的统计学定义 系列导航

P 值的统计学定义系列导航

P 值的统计学定义系列导航