支付风控：可信识别的动态阈值统计决策

支付风控可信识别中，从经验阈值到统计保证的发展历程里，目标始终在追求低误拦、高防穿透、可解释的平衡。而Ma等人（2025）提出的广义Benjamini Hochberg（g-BH）程序，为这一平衡提供了兼具理论严谨性与落地可行性的解决方案，构建了可信识别的新决策逻辑。

命名由来：“Benjamini Hochberg”源于该方法的学术传承——1995年，以色列统计学家约阿夫·本雅明尼（Yoav Benjamini）与约瑟夫·霍赫伯格（Yosef Hochberg）在《皇家统计学会期刊》发表论文，提出了首个能控制“假发现率（FDR）”的多重检验规则，即“Benjamini Hochberg程序”（简称BH程序），方法便以二人姓氏命名。Ma等人的研究是对原始BH程序的扩展，“g”代表“generalized（广义）”，因此命名为“g-BH程序”，以体现其突破原始方法局限、适配更复杂场景的特性。

一、历史背景：异常检测的发展困境

历史背景：在BH程序出现前，多重检验（同时判断多组数据的异常性）领域长期依赖“邦费罗尼校正（Bonferroni correction）”等方法，这类方法通过极度严格的阈值控制“假阳性率（FPR）”，但会导致“统计功效”大幅下降——大量真实异常信号被漏判。20世纪90年代，随着生物测序、医疗诊断等领域对“多指标同时检验”的需求激增，学界急需兼顾“控风险”与“保效能”的方法。Benjamini与Hochberg的BH程序首次实现了这一目标：它通过对p值排序并设置动态临界值，在保证FDR不超过预设水平的同时，显著提升了异常识别的准确率，成为多重检验领域的里程碑方法。但原始BH程序依赖“p值独立或满足正回归依赖（PRDS）”的假设，无法适配支付交易、工业检测等真实场景中“数据关联复杂”的问题，这正是Ma等人提出g-BH程序的核心动因。

早期识别问题本质是广义分布外（OOD）检测在金融场景的延伸——核心任务是区分“训练分布内（ID）的正常交易”与“分布外（OOD）的异常/欺诈交易”，同时涵盖交易层面的异常检测（如识别偏离用户习惯的交易行为）。

在g-BH提出前，行业普遍采用经验决策规则（e-DR）：通过人工或启发式方法设定固定阈值 \(s^*\) ，依据得分函数 \(s(x)\) 判断交易归属，公式为 \(\phi(x)=\begin{cases}\mathrm{ID}, & s(x) \geq s^* \\ \mathrm{OOD}, & s(x)<s^*\end{cases}\) 。这一模式在发展中逐渐暴露三大核心问题：

阈值缺乏理论支撑： \(s^*\) 多基于历史数据经验设定，无法保证误判率（如将正常交易误判为异常的假阳性率FPR）可控，在自动驾驶、医疗、大额支付等安全关键场景存在显著打扰；
适应性不足：固定阈值无法应对用户行为变化、场景迁移等动态情况，比如用户更换常用设备后，原有阈值易导致正常交易被误拦；
依赖数据独立性假设：传统多重检验方法（如原始BH程序）要求数据满足独立性或特定依赖模式（如正回归依赖PRDS）。原始BH程序核心操作：先将所有检验对象的p值从小到大排序，计算每笔交易对应的临界值（i/m×α，i为排序序号，m为总检验数，α为预设误判率），找到最大的i值使p值≤临界值，拒绝该i值及之前的所有原假设。PRDS即正回归依赖，指在原假设成立的条件下，一个检验的p值较小（异常证据强）时，其他检验的p值也倾向于较小，是原始BH程序适用的关键依赖条件。但真实支付交易数据存在复杂关联，如同一用户短时间内多笔交易、同一商户关联多笔交易等，不满足独立性或PRDS，导致方法适用性受限。

随着数字支付规模扩大，欺诈手段日趋隐蔽，行业对可信识别的诉求从经验有效升级为理论可证、动态适配、风险可控，g-BH程序正是在这一背景下部分能解决此类问题。

二、解决方案：g-BH程序的统计决策逻辑

g-BH程序的核心创新，是将支付风控可信识别转化为多重假设检验问题，通过统计方法解决传统阈值决策的固有缺陷。

1. 核心框架：从固定阈值到动态统计检验

g-BH将每笔待检测交易视为一个假设检验对象，建立原假设 \(H_{i,0}\) （第 \(i\) 笔交易为正常交易，服从ID分布）与备择假设 \(H_{i,1}\) （第 \(i\) 笔交易为异常/欺诈交易，不服从ID分布）。决策核心不再是单一阈值，而是通过 \(\mathrm{p}\) 值量化“交易异常的证据强度”—— \(\mathrm{p}(\tilde{X})\) 需满足 \(0 \leq \mathrm{p}(\tilde{X}) \leq 1\) ，且在原假设成立时 \(P[\mathrm{p}(\tilde{X}) \leq t | H_0] \leq t\) ， \(\mathrm{p}\) 值越小，交易异常的证据越充分。

2. 决策规则：动态适配的可信边界

g-BH的决策逻辑可概括为“排序-校验-判定”三步法，核心公式为 \(i_{\mathrm{g-BH}}^* = \max\left\{i \in [n] : f(\mathrm{p}_{(i)}) \leq \frac{i}{n}\alpha\right\}\) ，公式各部分及核心逻辑解析如下：

符号含义拆解： \(i_{\mathrm{g-BH}}^*\) 是最终确定的“可信与不可信交易的分界序号”； \(\max\left\{\right\}\) 表示“找出满足条件的最大序号i”； \(i \in [n]\) 中，i是交易按p值排序后的序号（1到n），n是当前批次待检测交易总数（如1分钟内的100笔交易，n=100）； \(f(\mathrm{p}_{(i)})\) 是对排序后第i笔交易的p值 \(\mathrm{p}_{(i)}\) 进行的函数转换（目的是适配不同数据分布，支付风控初期可用“f(x)=x”简化，即直接用p值计算）； \(\frac{i}{n}\alpha\) 是动态临界值，α是预设的可接受误拦率（支付风控常用α=5%）。
核心逻辑翻译：先把当前批次所有交易的综合p值从小到大排序，给每笔交易标上序号i；然后对每笔交易计算“动态临界值i/n×α”，找到“p值（或转换后的f(p值)）≤动态临界值”的最大序号i，这个序号就是分界点——序号≤i的交易是不可信的，序号＞i的是可信的。
支付风控实例：假设某批次n=100笔交易，α=5%。将100笔交易的p值排序后，i=8时，动态临界值=8/100×5%=0.4%，若第8笔交易p值=0.3%≤0.4%；i=9时，临界值=9/100×5%=0.45%，第9笔交易p值=0.5%＞0.45%，则 \(i_{\mathrm{g-BH}}^*=8\) ，前8笔交易不可信，后92笔可信。 排序的含义：这里的“排序”是按交易的综合p值从小到大排列，代表交易的“异常可疑程度”——排序越靠前（i值越小），p值越小，说明该交易偏离正常模式的证据越充分，是欺诈/异常交易的可能性越高。比如排序第1的交易p值可能仅0.1%，是批次中最可疑的；排序第100的交易p值90%，几乎完全符合正常交易特征。这种排序本质是将批次内所有交易按“风险等级”从高到低梳理，方便优先聚焦高风险对象。 动态阈值的设置原因：核心是为了“在控制整体误拦率的前提下，最大化识别高风险交易”。传统固定阈值（如一刀切设为5%）的问题是“忽视批次交易的整体风险分布”，而g-BH的动态阈值（i/n×α）基于两个逻辑设计：一是α（如5%）是预设的“全批次可接受最大误拦率”，需在所有待检交易中合理分配；二是排序越靠前的交易（i越小），异常证据越明确，对其设置的“风险容忍阈值”应越低（比如i=1时阈值0.05%，i=2时0.1%），避免漏过明确高风险交易；排序越靠后（i越大），交易越接近正常，阈值可适当放宽，减少对正常交易的误判。这种设置把“整体风险控制”转化为“分等级的个体风险校验”，既保证全批次误拦率不超过α，又比固定阈值更适配交易风险的动态分布——比如某批次异常交易集中（如羊毛党批量操作），排序后前20笔p值都很小，动态阈值会随i增大逐步提高，既能把这20笔高风险交易都识别出来，又不会误拦后面的正常交易。

基于此公式的决策逻辑，相比固定阈值，能根据批次交易整体的p值分布动态调整标准，避免“批量误拦”或“漏放欺诈交易”。

函数 \(f(\cdot)\) 属于两类函数族 \(\mathcal{F}_1\) 或 \(\mathcal{F}_2\) ， \(\mathcal{F}_1\) 满足 \(f_+(0)=0\) 、 \(f'(x)>0\) 且 \(\int_{0}^{1} \frac{1}{f(x)} dx \leq 1\) ， \(\mathcal{F}_2\) 满足 \(f_+(0)=0\) 且 \(f'(x)\geq 1\) ；
\(n\) 为批次待检测交易数量， \(\alpha\) 为预设可接受误拦率（支付风控常用 \(\alpha=5%\) ）， \(\mathrm{p}_{(i)}\) 为排序后的第 \(i\) 个 \(\mathrm{p}\) 值；
最终决策：当交易排序序号 \(i \leq i_{\mathrm{g-BH}}^*\) 时，拒绝原假设 \(H_{(i),0}\) ，判定为“不可信交易”，进入后续欺诈检测流程；反之则判定为“可信交易”，直接放行。

3. 理论保证：风险可控的核心支撑

g-BH的关键优势在于无需 \(\mathrm{p}\) 值独立性假设，即可实现两大理论保证：

假发现率（FDR）控制：首先结合支付风控场景明确混淆矩阵四要素，这是理解FDR的基础—— • 真阳性（TP）：被判定为不可信且实际为欺诈的交易； • 真阴性（TN）：被判定为可信且实际为正常的交易； • 假阳性（FP）：被判定为不可信但实际为正常的交易（核心误判指标）； • 假阴性（FN）：被判定为可信但实际为欺诈的交易（穿透风险指标）。 FDR定义为错误发现比例（FDP）的期望 \(\mathrm{FDR}=\mathbb{E}(\mathrm{FDP})\) ，其中 \(\mathrm{FDP}=\frac{|R \cap N_0|}{\max{|R|,1}}\) ，分子分母拆解如下： • 分子 \(|R \cap N_0|\) ：R是“被判定为不可信的交易集合”，N₀是“实际为正常交易的集合”，两者交集即“被误判为不可信的正常交易数”，对应混淆矩阵中的FP； • 分母 \(\max{|R|,1}\) ：|R|是“被判定为不可信的交易总数”（即TP+FP），加max是为避免|R|=0时分母为0的计算错误。简言之，FDP=FP/(TP+FP)，FDR是该比例的统计期望，g-BH可保证这一期望≤预设α（如5%），即全批次误拦率可控。
假阳性率（FPR）收敛：基于尾广义高斯分布族（含高斯分布、拉普拉斯分布等常用分布）， \(\mathbb{E}[\mathrm{FPR}_{\mathrm{g-BH}}]\) 存在明确上下界，且 \(\mathrm{FPR}_{\mathrm{g-BH}}\) 依概率收敛于0，意味着交易批次越大，正常交易被误判的概率越低。

三、模型落地：从理论到实践的转化路径

g-BH程序在支付风控中的落地，核心是将统计逻辑与业务场景深度结合，形成可操作的可信识别流程。

1. 构建ID基准：正常交易的参考样本库

以“用户级+群体级”双维度构建ID基准（即正常交易分布）：

用户级基准：收集单个用户近90天的常用设备、交易金额区间、商户类型、交易时间等特征，要求有效样本量≥50笔；
群体级基准：针对交易笔数不足的用户，补充同客群（如白领、学生）的共性模式，包括平均交易频次、异地交易占比等，群体样本量≥10万笔；
动态更新：每7天滚动更新基准，剔除历史欺诈交易和误交易，保证基准的真实性与时效性。

2. 计算综合p值：异常证据的量化融合

采用“单特征p值计算+极端值融合”的简化方案：

单特征p值：对每类核心特征（如交易金额、设备、时间），按公式 \(\mathrm{p}=\frac{\text{基准中极端样本数}+1}{\text{基准总样本数}+1}\) 计算，例如用户历史100笔交易中仅2笔金额超1000元，当前交易金额1200元的p值为 \(\frac{2+1}{100+1}≈2.97%\) ；
综合p值：对所有单特征p值排序，取最小值作为该交易的综合p值，突出最显著的异常信号。

3. 嵌入风控流程：降本与防风险的平衡

完整落地流程为：用户发起交易→前置黑名单校验→g-BH可信识别→可信交易直接放行→不可信交易调用欺诈检测模型（如XGBoost、规则引擎）→最终判定。该流程可减少40%-60%的策略调用量，同时保证欺诈穿透率可控。

四、实验效果：数据验证的实际价值

Ma等人（2025）的实验验证，g-BH程序相比传统e-DR具有显著优势：

FPR显著降低：工业异常检测场景中，FPR从29.03%降至16.15%；
F1-score大幅提升：异常识别的F1-score从87.16%升至98.47%，意味着在减少误拦的同时，欺诈交易的识别准确率显著提高；
仅少量牺牲TPR：正确识别正常交易的真阳性率（TPR）仅下降1.43%，实现“防穿透”与“用户体验”的平衡。

五、结语

g-BH程序的出现，将识别从经验驱动推向统计驱动，其核心价值不仅在于提升单一场景的识别效果，更在于提供了一套风险可控、动态适配、跨场景通用的决策框架。未来，随着分布式训练数据量的扩大与特征工程的优化，这一统计决策范式有望在更多安全关键场景落地，持续推动可信识别的精准化与高效化。

参考文献

Ma, X., Wu, J., Zou, X., & Liu, W. (2025). A unified decision rule for generalized out-of-distribution detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, https://doi.org/10.1109/TPAMI.2025.3642151

支付风控：可信识别的动态阈值统计决策

支付风控系列导航

一、历史背景：异常检测的发展困境

二、解决方案：g-BH程序的统计决策逻辑

1. 核心框架：从固定阈值到动态统计检验

2. 决策规则：动态适配的可信边界

3. 理论保证：风险可控的核心支撑

三、模型落地：从理论到实践的转化路径

1. 构建ID基准：正常交易的参考样本库

2. 计算综合p值：异常证据的量化融合

3. 嵌入风控流程：降本与防风险的平衡

四、实验效果：数据验证的实际价值

五、结语

参考文献

支付风控系列导航

支付风控：可信识别的动态阈值统计决策

支付风控 系列导航

一、历史背景：异常检测的发展困境

二、解决方案：g-BH程序的统计决策逻辑

1. 核心框架：从固定阈值到动态统计检验

2. 决策规则：动态适配的可信边界

3. 理论保证：风险可控的核心支撑

三、模型落地：从理论到实践的转化路径

1. 构建ID基准：正常交易的参考样本库

2. 计算综合p值：异常证据的量化融合

3. 嵌入风控流程：降本与防风险的平衡

四、实验效果：数据验证的实际价值

五、结语

参考文献

支付风控 系列导航

支付风控系列导航

支付风控系列导航