2 min read

支付风控:可信识别的动态阈值统计决策

支付风控可信识别中,从经验阈值到统计保证的发展历程里,目标始终在追求低误拦、高防穿透、可解释的平衡。而Ma等人(2025)提出的广义Benjamini Hochberg(g-BH)程序,为这一平衡提供了兼具理论严谨性与落地可行性的解决方案,构建了可信识别的新决策逻辑。

命名由来:“Benjamini Hochberg”源于该方法的学术传承——1995年,以色列统计学家约阿夫·本雅明尼(Yoav Benjamini)与约瑟夫·霍赫伯格(Yosef Hochberg)在《皇家统计学会期刊》发表论文,提出了首个能控制“假发现率(FDR)”的多重检验规则,即“Benjamini Hochberg程序”(简称BH程序),方法便以二人姓氏命名。Ma等人的研究是对原始BH程序的扩展,“g”代表“generalized(广义)”,因此命名为“g-BH程序”,以体现其突破原始方法局限、适配更复杂场景的特性。

一、历史背景:异常检测的发展困境

历史背景:在BH程序出现前,多重检验(同时判断多组数据的异常性)领域长期依赖“邦费罗尼校正(Bonferroni correction)”等方法,这类方法通过极度严格的阈值控制“假阳性率(FPR)”,但会导致“统计功效”大幅下降——大量真实异常信号被漏判。20世纪90年代,随着生物测序、医疗诊断等领域对“多指标同时检验”的需求激增,学界急需兼顾“控风险”与“保效能”的方法。Benjamini与Hochberg的BH程序首次实现了这一目标:它通过对p值排序并设置动态临界值,在保证FDR不超过预设水平的同时,显著提升了异常识别的准确率,成为多重检验领域的里程碑方法。但原始BH程序依赖“p值独立或满足正回归依赖(PRDS)”的假设,无法适配支付交易、工业检测等真实场景中“数据关联复杂”的问题,这正是Ma等人提出g-BH程序的核心动因。

早期识别问题本质是广义分布外(OOD)检测在金融场景的延伸——核心任务是区分“训练分布内(ID)的正常交易”与“分布外(OOD)的异常/欺诈交易”,同时涵盖交易层面的异常检测(如识别偏离用户习惯的交易行为)。

在g-BH提出前,行业普遍采用经验决策规则(e-DR):通过人工或启发式方法设定固定阈值 \(s^*\) ,依据得分函数 \(s(x)\) 判断交易归属,公式为 \(\phi(x)=\begin{cases}\mathrm{ID}, & s(x) \geq s^* \\ \mathrm{OOD}, & s(x)<s^*\end{cases}\) 。这一模式在发展中逐渐暴露三大核心问题:

  1. 阈值缺乏理论支撑: \(s^*\) 多基于历史数据经验设定,无法保证误判率(如将正常交易误判为异常的假阳性率FPR)可控,在自动驾驶、医疗、大额支付等安全关键场景存在显著打扰;

  2. 适应性不足:固定阈值无法应对用户行为变化、场景迁移等动态情况,比如用户更换常用设备后,原有阈值易导致正常交易被误拦;

  3. 依赖数据独立性假设:传统多重检验方法(如原始BH程序)要求数据满足独立性或特定依赖模式(如正回归依赖PRDS)。原始BH程序核心操作:先将所有检验对象的p值从小到大排序,计算每笔交易对应的临界值(i/m×α,i为排序序号,m为总检验数,α为预设误判率),找到最大的i值使p值≤临界值,拒绝该i值及之前的所有原假设。PRDS即正回归依赖,指在原假设成立的条件下,一个检验的p值较小(异常证据强)时,其他检验的p值也倾向于较小,是原始BH程序适用的关键依赖条件。但真实支付交易数据存在复杂关联,如同一用户短时间内多笔交易、同一商户关联多笔交易等,不满足独立性或PRDS,导致方法适用性受限。

随着数字支付规模扩大,欺诈手段日趋隐蔽,行业对可信识别的诉求从经验有效升级为理论可证、动态适配、风险可控,g-BH程序正是在这一背景下部分能解决此类问题。

二、解决方案:g-BH程序的统计决策逻辑

g-BH程序的核心创新,是将支付风控可信识别转化为多重假设检验问题,通过统计方法解决传统阈值决策的固有缺陷。

1. 核心框架:从固定阈值到动态统计检验

g-BH将每笔待检测交易视为一个假设检验对象,建立原假设 \(H_{i,0}\) (第 \(i\) 笔交易为正常交易,服从ID分布)与备择假设 \(H_{i,1}\) (第 \(i\) 笔交易为异常/欺诈交易,不服从ID分布)。决策核心不再是单一阈值,而是通过 \(\mathrm{p}\) 值量化“交易异常的证据强度”—— \(\mathrm{p}(\tilde{X})\) 需满足 \(0 \leq \mathrm{p}(\tilde{X}) \leq 1\) ,且在原假设成立时 \(P[\mathrm{p}(\tilde{X}) \leq t | H_0] \leq t\)\(\mathrm{p}\) 值越小,交易异常的证据越充分。

2. 决策规则:动态适配的可信边界

g-BH的决策逻辑可概括为“排序-校验-判定”三步法,核心公式为 \(i_{\mathrm{g-BH}}^* = \max\left\{i \in [n] : f(\mathrm{p}_{(i)}) \leq \frac{i}{n}\alpha\right\}\) ,公式各部分及核心逻辑解析如下:

  • 符号含义拆解\(i_{\mathrm{g-BH}}^*\) 是最终确定的“可信与不可信交易的分界序号”; \(\max\left\{\right\}\) 表示“找出满足条件的最大序号i”; \(i \in [n]\) 中,i是交易按p值排序后的序号(1到n),n是当前批次待检测交易总数(如1分钟内的100笔交易,n=100); \(f(\mathrm{p}_{(i)})\) 是对排序后第i笔交易的p值 \(\mathrm{p}_{(i)}\) 进行的函数转换(目的是适配不同数据分布,支付风控初期可用“f(x)=x”简化,即直接用p值计算); \(\frac{i}{n}\alpha\) 是动态临界值,α是预设的可接受误拦率(支付风控常用α=5%)。

  • 核心逻辑翻译:先把当前批次所有交易的综合p值从小到大排序,给每笔交易标上序号i;然后对每笔交易计算“动态临界值i/n×α”,找到“p值(或转换后的f(p值))≤动态临界值”的最大序号i,这个序号就是分界点——序号≤i的交易是不可信的,序号>i的是可信的。

  • 支付风控实例:假设某批次n=100笔交易,α=5%。将100笔交易的p值排序后,i=8时,动态临界值=8/100×5%=0.4%,若第8笔交易p值=0.3%≤0.4%;i=9时,临界值=9/100×5%=0.45%,第9笔交易p值=0.5%>0.45%,则 \(i_{\mathrm{g-BH}}^*=8\) ,前8笔交易不可信,后92笔可信。 排序的含义:这里的“排序”是按交易的综合p值从小到大排列,代表交易的“异常可疑程度”——排序越靠前(i值越小),p值越小,说明该交易偏离正常模式的证据越充分,是欺诈/异常交易的可能性越高。比如排序第1的交易p值可能仅0.1%,是批次中最可疑的;排序第100的交易p值90%,几乎完全符合正常交易特征。这种排序本质是将批次内所有交易按“风险等级”从高到低梳理,方便优先聚焦高风险对象。 动态阈值的设置原因:核心是为了“在控制整体误拦率的前提下,最大化识别高风险交易”。传统固定阈值(如一刀切设为5%)的问题是“忽视批次交易的整体风险分布”,而g-BH的动态阈值(i/n×α)基于两个逻辑设计:一是α(如5%)是预设的“全批次可接受最大误拦率”,需在所有待检交易中合理分配;二是排序越靠前的交易(i越小),异常证据越明确,对其设置的“风险容忍阈值”应越低(比如i=1时阈值0.05%,i=2时0.1%),避免漏过明确高风险交易;排序越靠后(i越大),交易越接近正常,阈值可适当放宽,减少对正常交易的误判。这种设置把“整体风险控制”转化为“分等级的个体风险校验”,既保证全批次误拦率不超过α,又比固定阈值更适配交易风险的动态分布——比如某批次异常交易集中(如羊毛党批量操作),排序后前20笔p值都很小,动态阈值会随i增大逐步提高,既能把这20笔高风险交易都识别出来,又不会误拦后面的正常交易。

基于此公式的决策逻辑,相比固定阈值,能根据批次交易整体的p值分布动态调整标准,避免“批量误拦”或“漏放欺诈交易”。

  • 函数 \(f(\cdot)\) 属于两类函数族 \(\mathcal{F}_1\)\(\mathcal{F}_2\)\(\mathcal{F}_1\) 满足 \(f_+(0)=0\)\(f'(x)>0\)\(\int_{0}^{1} \frac{1}{f(x)} dx \leq 1\)\(\mathcal{F}_2\) 满足 \(f_+(0)=0\)\(f'(x)\geq 1\)

  • \(n\) 为批次待检测交易数量, \(\alpha\) 为预设可接受误拦率(支付风控常用 \(\alpha=5%\) ), \(\mathrm{p}_{(i)}\) 为排序后的第 \(i\)\(\mathrm{p}\) 值;

  • 最终决策:当交易排序序号 \(i \leq i_{\mathrm{g-BH}}^*\) 时,拒绝原假设 \(H_{(i),0}\) ,判定为“不可信交易”,进入后续欺诈检测流程;反之则判定为“可信交易”,直接放行。

3. 理论保证:风险可控的核心支撑

g-BH的关键优势在于无需 \(\mathrm{p}\) 值独立性假设,即可实现两大理论保证:

  1. 假发现率(FDR)控制:首先结合支付风控场景明确混淆矩阵四要素,这是理解FDR的基础—— • 真阳性(TP):被判定为不可信且实际为欺诈的交易; • 真阴性(TN):被判定为可信且实际为正常的交易; • 假阳性(FP):被判定为不可信但实际为正常的交易(核心误判指标); • 假阴性(FN):被判定为可信但实际为欺诈的交易(穿透风险指标)。 FDR定义为错误发现比例(FDP)的期望 \(\mathrm{FDR}=\mathbb{E}(\mathrm{FDP})\) ,其中 \(\mathrm{FDP}=\frac{|R \cap N_0|}{\max{|R|,1}}\) ,分子分母拆解如下: • 分子 \(|R \cap N_0|\) :R是“被判定为不可信的交易集合”,N₀是“实际为正常交易的集合”,两者交集即“被误判为不可信的正常交易数”,对应混淆矩阵中的FP; • 分母 \(\max{|R|,1}\) :|R|是“被判定为不可信的交易总数”(即TP+FP),加max是为避免|R|=0时分母为0的计算错误。 简言之,FDP=FP/(TP+FP),FDR是该比例的统计期望,g-BH可保证这一期望≤预设α(如5%),即全批次误拦率可控。

  2. 假阳性率(FPR)收敛:基于尾广义高斯分布族(含高斯分布、拉普拉斯分布等常用分布), \(\mathbb{E}[\mathrm{FPR}_{\mathrm{g-BH}}]\) 存在明确上下界,且 \(\mathrm{FPR}_{\mathrm{g-BH}}\) 依概率收敛于0,意味着交易批次越大,正常交易被误判的概率越低。

三、模型落地:从理论到实践的转化路径

g-BH程序在支付风控中的落地,核心是将统计逻辑与业务场景深度结合,形成可操作的可信识别流程。

1. 构建ID基准:正常交易的参考样本库

以“用户级+群体级”双维度构建ID基准(即正常交易分布):

  • 用户级基准:收集单个用户近90天的常用设备、交易金额区间、商户类型、交易时间等特征,要求有效样本量≥50笔;

  • 群体级基准:针对交易笔数不足的用户,补充同客群(如白领、学生)的共性模式,包括平均交易频次、异地交易占比等,群体样本量≥10万笔;

  • 动态更新:每7天滚动更新基准,剔除历史欺诈交易和误交易,保证基准的真实性与时效性。

2. 计算综合p值:异常证据的量化融合

采用“单特征p值计算+极端值融合”的简化方案:

  • 单特征p值:对每类核心特征(如交易金额、设备、时间),按公式 \(\mathrm{p}=\frac{\text{基准中极端样本数}+1}{\text{基准总样本数}+1}\) 计算,例如用户历史100笔交易中仅2笔金额超1000元,当前交易金额1200元的p值为 \(\frac{2+1}{100+1}≈2.97%\)

  • 综合p值:对所有单特征p值排序,取最小值作为该交易的综合p值,突出最显著的异常信号。

3. 嵌入风控流程:降本与防风险的平衡

完整落地流程为:用户发起交易→前置黑名单校验→g-BH可信识别→可信交易直接放行→不可信交易调用欺诈检测模型(如XGBoost、规则引擎)→最终判定。该流程可减少40%-60%的策略调用量,同时保证欺诈穿透率可控。

四、实验效果:数据验证的实际价值

Ma等人(2025)的实验验证,g-BH程序相比传统e-DR具有显著优势:

  • FPR显著降低:工业异常检测场景中,FPR从29.03%降至16.15%;

  • F1-score大幅提升:异常识别的F1-score从87.16%升至98.47%,意味着在减少误拦的同时,欺诈交易的识别准确率显著提高;

  • 仅少量牺牲TPR:正确识别正常交易的真阳性率(TPR)仅下降1.43%,实现“防穿透”与“用户体验”的平衡。

五、结语

g-BH程序的出现,将识别从经验驱动推向统计驱动,其核心价值不仅在于提升单一场景的识别效果,更在于提供了一套风险可控、动态适配、跨场景通用的决策框架。未来,随着分布式训练数据量的扩大与特征工程的优化,这一统计决策范式有望在更多安全关键场景落地,持续推动可信识别的精准化与高效化。

参考文献

Ma, X., Wu, J., Zou, X., & Liu, W. (2025). A unified decision rule for generalized out-of-distribution detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, https://doi.org/10.1109/TPAMI.2025.3642151