2 min read

分群策略:解决幸存者评估偏差

在信贷风控领域,模型迭代是优化风险识别的关键。但从业者常面临困境:新模型开发阶段 AUC、KS 指标优异,上线后真实坏账率却未优化。究其根源,并非算法失效,而是评估环节存在幸存者偏差。本文将剖析矛盾本质,对比解决方案,解析 “分群评估” 这一低成本无偏评估路径,并结合 Paes 等人(2024)及 Rosenbaum 和 Rubin(1983)的研究阐释其理论基础。

一、问题本质:被 “幸存者” 局限的评估样本

信贷风控模型的开发依赖历史数据,但这些数据存在一个天然缺陷:仅包含旧模型通过的客户(“幸存者”),而缺失被旧模型拒绝客户的风险表现数据。这种样本选择偏差(Sample Selection Bias),本质上是 “幸存者偏差” 在风控场景的具体体现(Paes et al., 2024)。

举个直观的例子:假设旧模型以 “评分≥60 分” 为通过标准,历史数据中只有评分≥60 分的客户有后续还款表现(好 / 坏客户标签);而评分<60 分的客户被直接拒绝,我们永远无法知道他们若被批准,会是 “好客户” 还是 “坏客户”。当我们用这些 “幸存者” 数据评估新模型时,相当于 “用部分样本推断整体”—— 新模型在 “已知幸存者” 上的表现,无法代表其在 “全量潜在客户” 上的真实能力。

二、核心矛盾:开发阶段 “高估” 与上线阶段 “低估” 的悖论

幸存者偏差直接导致了风控模型迭代的核心矛盾:评估场景与实际应用场景的脱节,具体表现为两个阶段的巨大反差:

  1. 开发阶段(高估):在旧模型通过的 “幸存者” 样本上,新模型的区分能力(AUC/KS)往往显著优于旧模型。原因在于,这些样本已被旧模型筛选为 “低风险候选”,风险特征相对单一,新模型容易通过拟合局部规律实现指标提升;
  2. 上线阶段(低估):新模型面对全量客户时,不仅包含旧模型通过的客群,还包含旧模型拒绝的 “Swap-in 人群”(新模型认为可通过的高风险潜在客群)。由于开发阶段未评估这部分人群,新模型的真实风险识别能力被暴露,坏账率可能反超旧模型。

这种 “开发时优、上线时差” 的悖论,让许多迭代投入沦为 “无效优化”,甚至给业务带来额外风险。

三、根本原因:样本分布的 “战场错位”

矛盾的本质,是开发阶段与上线阶段的样本分布不一致

  • 开发阶段的样本分布:旧模型通过的 “幸存者” 客群,风险分布被人为 “收窄”(高风险客户已被过滤);
  • 上线阶段的样本分布:全量潜在客户,风险分布更接近真实业务场景(包含高、中、低各风险层级)。

四、主流解决方案对比

为解决评估偏差问题,行业内形成了多种解决方案,但各有优劣,适用场景差异显著。下表对四种核心方法进行了对比:

方法 (Method) 原理 (Principle) 优势 (Advantage) 缺陷 (Disadvantage) 适用场景 (Use Case)
随机流量 (Random Traffic) 预留 1%-5% 全量流量,不经过任何模型筛选直接通过,收集无偏表现数据 评估绝对客观,是无偏评估的 “黄金标准” 成本极高:需牺牲大量利润(承担随机通过客户的坏账风险) 头部平台、高利润产品(有足够资金承担试错成本)
拒绝推断 (Rejection Inference) 通过统计方法(如逻辑回归、聚类)推断旧模型拒绝客户的风险表现 理论上可覆盖全量样本,无需额外成本 推断假设极强(如 “拒绝客群风险分布稳定”),噪声大,实际可靠性低,几乎无生产实用价值 学术研究、无额外数据来源的场景(极少落地)
冠军挑战者 (Champion-Challenger) 将 10%-20% 流量分配给新模型(挑战者),与旧模型(冠军)并行运行,在线对比业务效果 结果真实可靠,直接反映全量场景下的业务价值 效率低(需长期运行收集数据),资金占用大,有试错风险(新模型若失效会直接导致坏账) 重大策略变更(如模型架构重构、评分卡体系替换)的最终验证
分群评估 (Segmented Evaluation) 按旧模型评分分群,对比新旧模型性能 低成本逼近无偏真相,无需额外业务成本,效率高 需假设 “模型能力具有全局一致性”(即高通过率客群的提升可迁移到其他客群) 常规模型迭代(如特征优化、参数调优)的首选方案

从表中可见,分群评估凭借 “低成本、高效率、高可靠性” 的优势,成为大多数企业常规模型迭代的首选方案。其背后的理论支撑,正是 Rosenbaum 和 Rubin(1983)提出的倾向得分因果推断思想,以及 Paes 等人(2024)进一步拓展的条件风险价值(CVaR)学术框架。

五、分群评估:低成本逼近无偏真相的核心逻辑

分群评估的核心操作是按旧模型评分将客户分为多个子群(如评分 0-10、10-20…90-100 分),然后在各子群内对比新旧模型的性能,重点分析不同评分区间的模型表现差异。其有效性可从两个理论视角和实践逻辑展开:

1. 理论基础:因果推断与分布外泛化的双重支撑

分群评估并非经验性操作,而是有坚实的理论依据:

(1)因果推断视角:控制 “混淆变量”,创造公平对比环境

在因果推断中,混淆变量(Confounding Variable) 是同时影响 “原因”(模型选择)和 “结果”(评估指标)的第三方变量,会导致虚假关联(Paes et al., 2024)。例如,研究 “喝咖啡是否导致心脏病” 时,“年龄” 是混淆变量 —— 年龄大的人更爱喝咖啡,也更易患心脏病,若不控制年龄,会误判咖啡与心脏病的因果关系。

在风控模型评估中,“旧模型认知”(即旧模型评分)正是核心混淆变量

  • 原因:选择新模型 vs. 旧模型;
  • 结果:模型的坏账率、AUC 等指标;
  • 混淆变量:旧模型评分(它决定了哪些客户被纳入历史数据,直接影响评估结果)。

按旧模型评分分群,本质是固定混淆变量—— 在每个子群内,客户的旧模型评分相似(即 “旧模型认为他们风险水平一致”),此时对比新旧模型的性能,相当于在 “相同风险基线” 上公平较量,消除了样本选择偏差的干扰(Paes et al., 2024;Rosenbaum & Rubin, 1983)。这一逻辑与 Rosenbaum 和 Rubin(1983)提出的 “倾向得分平衡” 思想高度契合:倾向得分通过浓缩协变量信息,实现处理组与对照组的基线平衡;而分群评估通过旧模型评分固定风险基线,本质是风控场景下的 “混淆变量控制” 实践。

(2)分布外泛化视角:高通过率客群接近真实分布

旧模型中,那些被筛选最少的客户群体,其风险分布与全量潜在客户的真实分布最为接近。因为在旧模型的评估体系下,这部分客户中的高风险个体被过滤的比例相对较低。基于此,新模型在这类接近真实分布客群上的性能表现,最能体现其在 “全量场景” 下的泛化能力(Paes et al., 2024)。

各子群由于旧模型筛选程度不同,风险分布存在差异。以通过率仅 10% 的客户群体为例,旧模型对其筛选极为严格,导致该群体仅包含旧模型判定 “勉强可通过” 的客户,其风险分布已被严重扭曲。新模型在这类被深度筛选的客群上所展现出的提升,很可能是 “过拟合”(拟合局部噪声)导致的,难以迁移到全量场景中。

2. 评估逻辑:区分 “真提升” 与 “假优化”

分群评估的实践逻辑,是通过子群对比识别 “真提升”:

在各子群中,假优化表现为仅在部分子群上提升,特别是那些风险分布被严重扭曲的子群,这可能是模型对局部样本的过拟合,无法应对全量场景的未知风险;而真提升则体现为在多个子群,尤其是接近真实分布的子群上均有显著提升。这证明新模型能在不同风险特征的客群中有效区分风险,上线后更可能带来实际价值。

例如:若新模型在旧模型 “80-100 分” 客群(通过率 95%)的 KS 值提升 2 个点,而在 “0-20 分” 客群(通过率 5%)提升 5 个点,需综合考量多个子群的表现,判断整体提升的有效性,避免片面关注某一子群。

3. 推断关系:局部提升与整体效果的关联

分群评估的核心价值,在于它能通过各子群客群的表现推断整体效果。整体来看,新模型在多个子群上的提升情况,共同构成了对全量客群效果的预估。各子群中接近真实分布客群的表现,是整体提升效果的重要参考依据,但并非唯一判断标准。

4. 与多群体公平性的联系:CVaR 的学术共鸣

分群评估的思想,与 Paes 等人(2024)提出的 “基于条件风险价值(CVaR)的多群体公平性评估” 高度一致,同时也延续了 Rosenbaum 和 Rubin(1983)“通过单变量浓缩实现多变量平衡” 的核心思路。

条件风险价值(CVaR) 是衡量 “极端风险下平均损失” 的指标,其公式为:

\(CVaR_\alpha(X) = \mathbb{E}[X \mid X \geq VaR_\alpha(X)]\)

其中,\(VaR_\alpha(X)\) 是置信水平\(\alpha\)下的风险价值(即 “在\(\alpha\)概率下,损失不超过\(VaR_\alpha(X)\)”),而\(CVaR_\alpha(X)\) 则是 “损失超过\(VaR_\alpha(X)\)的极端场景下的平均损失”(Paes et al., 2024)。在多群体公平性评估中,CVaR 用于衡量 “最差表现子群体” 的平均性能差距,避免模型对特定群体的歧视。

分群评估与 CVaR、倾向得分的核心共鸣在于:放弃 “全局最优” 的幻想,通过控制变量聚焦子群体性能。三者都认为,只有在 “条件独立” 的子群体(如按旧模型评分分群、按倾向得分分群、按客户特征分群)中评估性能,才能更准确地逼近真相 —— 这正是分群评估低成本无偏的学术根基。

六、实践启示:分群评估的落地要点

在实际风控迭代中,分群评估的落地可遵循以下步骤:

  1. 分群粒度设计:按旧模型评分分为 5-10 个等距或等频子群(如等频分群,确保每个子群样本量充足);
  2. 核心指标选择:除 AUC/KS 外,重点关注子群内的 “坏账率、通过率、lift 值”(lift 值反映新模型相对旧模型的风险区分提升幅度);
  3. 客群综合分析:全面分析各子群表现,重点关注不同通过率子群间的趋势变化,若多个子群新模型的坏账率下降、lift 值提升,可判断为 “有效迭代”;
  4. 跨群一致性验证:若部分子群提升显著,但其他子群无提升甚至下降,需验证模型是否存在过拟合问题,避免上线后风险波动。

七、总结

信贷风控模型的 “评估悖论”,本质是幸存者偏差导致的样本分布错位。在众多解决方案中,分群评估凭借 “控制混淆变量、聚焦高通过率客群” 的核心逻辑,以低成本实现了对无偏真相的逼近,成为常规模型迭代的首选方案。其背后的因果推断思想(Rosenbaum & Rubin, 1983)与 CVaR 理论(Paes et al., 2024),不仅为风控评估提供了学术支撑,也为多群体公平性、分布外泛化等前沿问题提供了实践思路。

参考文献

Paes, L. M., Suresh, A. T., Beutel, A., Calmon, F. P., & Beirami, A. (2024). Multi-group fairness evaluation via conditional value-at-risk testing. IEEE Journal on Selected Areas in Information Theory, 5(1), 659–674. https://doi.org/10.1109/JSAIT.2024.3397741

Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55. https://doi.org/10.1093/biomet/70.1.41