一、P值的核心困惑：条件概率的方向差异

在统计推断中，P值的定义与“我们真正想推断的概率”常被混淆。参考 Shi (2018)，核心是区分两个条件概率：

\[P(D \text{ 发生} \mid H_0 \text{ 为真}) \neq P(H_0 \text{ 为真} \mid D \text{ 发生})\]

其中： - \(H_0\)：原假设（如“因子无超额收益”“无法区分两类事物”）； - \(D\)：观测到的事件（如“因子产生显著结果”“辨识全部正确”）。

（一）P值的定义：“原假设为真时，观测到事件的概率”

P值的数学表达为： \[\text{p-value} = P(D \text{ is true} \mid H_0 \text{ is true})\]

它描述的是：若原假设\(H_0\)确实成立，观测到当前事件\(D\)（或更极端事件）的概率。

（二）我们真正关心的：“事件发生时，原假设为真的概率”

但实际分析中，我们更关注的是：当观测到事件\(D\)时，原假设\(H_0\)为真的概率，即： \[P(H_0 \text{ is true} \mid D \text{ is true})\]

逻辑上，\(D\)是“已发生的证据”，\(H_0\)是“待判断的命题”，我们需要“证据对命题的支持度”——这与P值的条件概率方向恰好相反。

（三）直观例子：条件概率的现实差异

用生活场景可直观理解两者的区别：

例子1：“上班”与“坐电梯”

若“一个人上班（\(H\)）”为真，“他坐电梯（\(D\)）”的概率很高（如\(P(D \mid H) = 0.9\)）；
但“一个人坐电梯（\(D\)）”时，“他在上班（\(H\)）”的概率不一定高（可能是下班、回家等，即\(P(H \mid D)\)不必然大）。

例子2：“因子超额收益”与“显著结果”

假设原假设\(H_0\)：“因子不产生超额收益”；事件\(D\)：“因子表现出显著结果”。 - P值是“因子本无超额收益，却观测到显著结果的概率”（\(\text{p-value} = P(D \mid H_0)\)）； - 我们真正关心的是“观测到显著结果时，因子实际无超额收益的概率”（\(P(H_0 \mid D)\)）。

例子3：“小概率事件与误判风险”

若\(D\)是“极罕见事件”（如“数据缺失多但偶尔出现正常值的变量”），即使\(\text{p-value}\)很小，\(P(H_0 \mid D)\)也可能很高——因为“罕见事件\(D\)发生”更可能是随机误差，而非\(H_0\)不成立的证据。此时，错误拒绝\(H_0\)的概率（假阳性率）会显著升高。

二、贝叶斯化的P值：融入先验信念的推断

为了将“我们真正关心的\(P(H_0 \mid D)\)”与P值关联，可通过贝叶斯公式引入“先验概率”，得到更贴合直觉的“贝叶斯化的P值”。

（一）贝叶斯公式的核心关联

贝叶斯公式基本形式： \[P(H_0 \mid D) = \frac{P(D \mid H_0) \cdot P(H_0)}{P(D)}\]

其中，边缘概率\(P(D)\)可展开为： \[P(D) = P(D \mid H_0)P(H_0) + P(D \mid H_1)P(H_1)\] （\(H_1\)为备择假设，如“因子有超额收益”“能区分两类事物”）。

（二）最小贝叶斯因子与先验优势比

1. 最小贝叶斯因子（MBF）

定义最小贝叶斯因子（Minimum Bayes Factor, MBF）： \[\text{MBF} = \frac{\log\left(\frac{1}{\text{p-value}}\right) \cdot \text{p-value}}{e} \approx P(D \mid H_0)\]

MBF近似等价于“原假设下观测到\(D\)的概率”，是经典P值与贝叶斯推断的“桥梁”。

2. 先验优势比（Prior Odds）

定义先验优势比： \[\text{Prior Odds} = \frac{P(H_0)}{P(H_1)}\]

它描述“原假设为真的概率”与“备择假设为真的概率”的比值，反映我们对\(H_0\)的“先验信念”（比如“更相信原假设”或“更怀疑原假设”）。

（三）贝叶斯化的P值计算

结合MBF和先验优势比，“贝叶斯化的P值”可表示为： \[\text{Bayesianized p-value} = \frac{\text{MBF} \times \text{Prior Odds}}{1 + \text{MBF} \times \text{Prior Odds}}\]

它的意义是：结合“原假设下观测到\(D\)的概率（MBF）”和“原假设与备择假设的先验信念（Prior Odds）”后，事件\(D\)发生时\(H_0\)为真的概率。

（四）直观例子：先验信念如何影响推断

通过三个“全对辨识”的例子，看先验优势比对“贝叶斯化的P值”的影响：

例子	场景描述	对\(H_0\)（“无法区分/无神力”）的先验信念\(P(H_0)\)	贝叶斯化的P值趋势
音乐家辨乐谱	音乐家对乐曲有专业度	\(P(H_0)\)高（“音乐家本就该能区分”）	较高（难拒绝\(H_0\)）
老妇人辨奶茶	常年喝茶有实践经验	\(P(H_0)\)中等（“有经验者可能能区分”）	中等
酒馆老板猜硬币	酒精“神力”更像噱头	\(P(H_0)\)低（“骗子大概率猜不对”）	较低（易拒绝\(H_0\)）

可见：先验信念会直接影响“贝叶斯化的P值”——若我们原本就怀疑\(H_0\)（如“酒馆老板是骗子”），则观测到“全对”时，更易推断\(H_0\)为假。

参考文献

Shi, Chuan. 2018. “在追逐 p-Value 的道路上狂奔，却在科学的道路上渐行渐远 .” 微信公众号“量化投资与机器学习”特约文章. April 9, 2018. https://mp.weixin.qq.com/s/VVUfui74pHcA8zMgYgsIWQ.

P 值的统计学定义与本质（一）

P 值的统计学定义系列导航

一、P值的核心困惑：条件概率的方向差异

（一）P值的定义：“原假设为真时，观测到事件的概率”

（二）我们真正关心的：“事件发生时，原假设为真的概率”

（三）直观例子：条件概率的现实差异

例子1：“上班”与“坐电梯”

例子2：“因子超额收益”与“显著结果”

例子3：“小概率事件与误判风险”

二、贝叶斯化的P值：融入先验信念的推断

（一）贝叶斯公式的核心关联

（二）最小贝叶斯因子与先验优势比

1. 最小贝叶斯因子（MBF）

2. 先验优势比（Prior Odds）

（三）贝叶斯化的P值计算

（四）直观例子：先验信念如何影响推断

参考文献

P 值的统计学定义系列导航

P 值的统计学定义与本质（一）

P 值的统计学定义 系列导航

一、P值的核心困惑：条件概率的方向差异

（一）P值的定义：“原假设为真时，观测到事件的概率”

（二）我们真正关心的：“事件发生时，原假设为真的概率”

（三）直观例子：条件概率的现实差异

例子1：“上班”与“坐电梯”

例子2：“因子超额收益”与“显著结果”

例子3：“小概率事件与误判风险”

二、贝叶斯化的P值：融入先验信念的推断

（一）贝叶斯公式的核心关联

（二）最小贝叶斯因子与先验优势比

1. 最小贝叶斯因子（MBF）

2. 先验优势比（Prior Odds）

（三）贝叶斯化的P值计算

（四）直观例子：先验信念如何影响推断

参考文献

P 值的统计学定义 系列导航

P 值的统计学定义系列导航

P 值的统计学定义系列导航