1 min read

P 值的统计学定义与本质(五)贝叶斯推断的关联

P值的核心统计学定义

P值的核心统计学定义为:在原假设(null hypothesis)成立的前提下,观测到当前样本结果,或比当前结果更极端结果的发生概率。该指标用于量化随机波动对观测结果的影响程度,为统计推断提供参考依据。这一逻辑可通过司法凶杀案场景通俗理解,更易掌握其核心内涵。

P值的通俗化理解:司法案件中的类比逻辑

设定原假设为“嫌疑人无罪”,与统计学中先默认原假设成立的逻辑一致。现场发现嫌疑人的血迹或DNA为观测到的结果,这类物证出现的概率本身具备极端性——非涉案人员中,随机匹配到相同DNA或血迹的概率极低。

此时计算的P值,即为“嫌疑人无罪的前提下,现场出现其血迹/DNA这一结果,或更极端匹配结果的发生概率”。若该P值极小,代表在“嫌疑人无罪”的原假设下,出现该极端物证结果的可能性极低,原假设成立的可信度随之大幅下降,证明嫌疑人无罪的难度显著提升;反之,若P值较高,说明该结果可由随机因素解释,无法排除原假设成立的可能。

该类比核心是,P值不直接证明原假设成立或不成立,通过量化极端结果在原假设下的发生概率,为判断原假设可信度提供数值依据,这与司法中“疑罪从无”的原则高度契合——司法中的“疑罪从无”,本质就是默认“嫌疑人无罪”这一原假设,若没有足够证据排除合理怀疑,就不能推翻原假设;正如P值较高时,无法排除原假设成立的可能,只有P值极低、极端结果难以用随机因素解释,才会降低原假设的可信度。

基于二项分布的P值计算案例

以风控欺诈检测场景为例,已知获取10个黑样本(均为已确认的欺诈用户,且来自10个不同用户),设定原假设为“这类欺诈用户单笔交易的欺诈风险为0.95”,观测结果为这10个不同欺诈用户的每笔对应交易,均被识别为欺诈交易(10个样本对应10笔交易,全部识别为欺诈)。

该场景符合独立重复的伯努利试验(Bernoulli trial)特征,对应二项分布的计算逻辑。10个不同欺诈用户的交易全部被识别为欺诈结果的概率,计算公式为单笔交易欺诈风险的10次幂。代入原假设的0.95单笔欺诈风险,可得对应P值约为59.87%。

当黑样本数量扩大至100个(来自100个不同欺诈用户),且这100个用户的对应交易全部被识别为欺诈交易时,相同原假设下的P值为0.95的100次幂,计算结果约为0.59%。

样本量对P值与统计推断的影响

样本量的变化会直接影响P值的计算结果,以及基于P值做出的统计推断。

在相同观测结果与原假设设定下,样本量越小,P值越高,代表观测结果由随机波动导致的可能性越高,无法排除原假设成立的可能。对应到风控欺诈场景中,10个不同欺诈用户的交易全部被识别为欺诈的结果,有接近60%的概率由“单笔欺诈风险0.95”的欺诈用户通过随机波动实现,无法仅凭该结果就认定这类欺诈用户的单笔欺诈风险一定高于0.95,更不能据此证明风控模型很强、准确率达到100%——小样本下的全识别结果,无法排除随机因素的影响,不能作为模型准确率达100%、性能优良的有效依据。

样本量越大,P值越低,代表观测结果由随机波动导致的可能性越低,原假设成立的可信度随之下降。100个不同欺诈用户的交易全部被识别为欺诈的结果,由“单笔欺诈风险0.95”的欺诈用户通过随机波动实现的概率不足1%,对应原假设的可信度极低,更倾向于判断这类欺诈用户的单笔欺诈风险高于0.95。需要强调的是,若这100个黑样本均为不同的欺诈用户(非重复样本、非特定筛选样本),能得到100%的欺诈识别准确率是非常难得的,这种情况下,才能真正说明风控模型的性能较强,其识别结果具备高可信度,而非随机波动带来的虚假优异表现。

P值与贝叶斯推断的边界区分

P值的计算逻辑与贝叶斯后验概率(posterior probability)存在本质差异。P值以原假设成立为前提,计算观测结果的发生概率;贝叶斯后验概率以观测结果为前提,计算目标参数符合特定条件的概率。

在风控欺诈场景中,59.87%的P值,代表“这类欺诈用户单笔欺诈风险为0.95的前提下,出现10个样本全部被识别为欺诈结果的概率”,而非“出现10个样本全部被识别为欺诈结果时,这类欺诈用户单笔欺诈风险为0.95的概率”。

采用无信息的均匀先验(uniform prior)进行贝叶斯推断,10个黑样本全部被识别为欺诈的观测结果,对应这类欺诈用户单笔真实欺诈风险的后验分布为Beta(11,1)。对该分布在0.95至1的区间进行积分,可得“这类欺诈用户单笔真实欺诈风险≥95%”的后验概率约为43.12%,该结果低于50%,代表基于现有小样本黑样本数据,无法对这类欺诈用户的高单笔欺诈风险形成有效支撑。

P值与贝叶斯推断的实践关联

P值与贝叶斯推断都为量化数据不确定性的方法,二者在实际应用中形成互补,而非互斥。P值适用于对原假设进行显著性检验,快速判断观测结果是否偏离随机波动范围,操作逻辑简洁,适合风控欺诈识别、模型效果初步验证等场景的快速判断。贝叶斯推断则适用于对目标参数的概率分布进行估计,能够结合先验信息与观测数据,输出参数在不同区间的概率,更适合需要精准量化参数不确定性的场景,如小样本黑样本下的欺诈风险评估、风控决策中的参数判断。

在风控欺诈识别、模型准确率评估等实际场景中,可先通过P值判断小样本黑样本高欺诈识别率结果是否由随机波动导致,若P值较高,再通过贝叶斯推断进一步量化欺诈用户真实单笔欺诈风险的实际分布范围,从而形成更全面的统计判断,避免单一依靠欺诈识别率或P值做出风控决策,减少误判、漏判。

实际应用中的参考提示

在A/B测试、风控模型效果评估等场景中,仅依靠欺诈识别率等百分比类指标进行判断,会忽略样本量带来的随机波动影响。小样本黑样本下的高欺诈识别率结果,大多包含较高的随机波动成分,对欺诈用户真实单笔欺诈风险的代表性较弱。大样本下的指标结果,能够有效降低随机波动的干扰,对欺诈用户真实单笔欺诈风险的估计更具稳定性。

在实际风控决策中,需结合样本量、P值与贝叶斯后验概率综合判断,同时明确决策目标。若以最大化欺诈识别成功率为目标,可参考指标的期望值;若以规避误判风险为目标,需关注指标分布的下限区间,不同决策目标对应不同的统计判断侧重点。


参考文献

3Blue1Brown. (2020, March 15). Bayes theorem, the logic of science [Video]. YouTube. https://www.youtube.com/watch?v=8idr1WZ1A7Q