分群策略：解决幸存者评估偏差

在信贷风控领域，模型迭代是优化风险识别的关键。但从业者常面临困境：新模型开发阶段 AUC、KS 指标优异，上线后真实坏账率却未优化。究其根源，并非算法失效，而是评估环节存在幸存者偏差。本文将剖析矛盾本质，对比解决方案，解析 “分群评估” 这一低成本无偏评估路径，并结合 Paes 等人（2024）及 Rosenbaum 和 Rubin（1983）的研究阐释其理论基础。

一、问题本质：被 “幸存者” 局限的评估样本

信贷风控模型的开发依赖历史数据，但这些数据存在一个天然缺陷：仅包含旧模型通过的客户（“幸存者”），而缺失被旧模型拒绝客户的风险表现数据。这种样本选择偏差（Sample Selection Bias），本质上是 “幸存者偏差” 在风控场景的具体体现（Paes et al., 2024）。

举个直观的例子：假设旧模型以 “评分≥60 分” 为通过标准，历史数据中只有评分≥60 分的客户有后续还款表现（好 / 坏客户标签）；而评分＜60 分的客户被直接拒绝，我们永远无法知道他们若被批准，会是 “好客户” 还是 “坏客户”。当我们用这些 “幸存者” 数据评估新模型时，相当于 “用部分样本推断整体”—— 新模型在 “已知幸存者” 上的表现，无法代表其在 “全量潜在客户” 上的真实能力。

二、核心矛盾：开发阶段 “高估” 与上线阶段 “低估” 的悖论

幸存者偏差直接导致了风控模型迭代的核心矛盾：评估场景与实际应用场景的脱节，具体表现为两个阶段的巨大反差：

开发阶段（高估）：在旧模型通过的 “幸存者” 样本上，新模型的区分能力（AUC/KS）往往显著优于旧模型。原因在于，这些样本已被旧模型筛选为 “低风险候选”，风险特征相对单一，新模型容易通过拟合局部规律实现指标提升；
上线阶段（低估）：新模型面对全量客户时，不仅包含旧模型通过的客群，还包含旧模型拒绝的 “Swap-in 人群”（新模型认为可通过的高风险潜在客群）。由于开发阶段未评估这部分人群，新模型的真实风险识别能力被暴露，坏账率可能反超旧模型。

这种 “开发时优、上线时差” 的悖论，让许多迭代投入沦为 “无效优化”，甚至给业务带来额外风险。

三、根本原因：样本分布的 “战场错位”

矛盾的本质，是开发阶段与上线阶段的样本分布不一致。

开发阶段的样本分布：旧模型通过的 “幸存者” 客群，风险分布被人为 “收窄”（高风险客户已被过滤）；
上线阶段的样本分布：全量潜在客户，风险分布更接近真实业务场景（包含高、中、低各风险层级）。

四、主流解决方案对比

为解决评估偏差问题，行业内形成了多种解决方案，但各有优劣，适用场景差异显著。下表对四种核心方法进行了对比：

方法 (Method)	原理 (Principle)	优势 (Advantage)	缺陷 (Disadvantage)	适用场景 (Use Case)
随机流量 (Random Traffic)	预留 1%-5% 全量流量，不经过任何模型筛选直接通过，收集无偏表现数据	评估绝对客观，是无偏评估的 “黄金标准”	成本极高：需牺牲大量利润（承担随机通过客户的坏账风险）	头部平台、高利润产品（有足够资金承担试错成本）
拒绝推断 (Rejection Inference)	通过统计方法（如逻辑回归、聚类）推断旧模型拒绝客户的风险表现	理论上可覆盖全量样本，无需额外成本	推断假设极强（如 “拒绝客群风险分布稳定”），噪声大，实际可靠性低，几乎无生产实用价值	学术研究、无额外数据来源的场景（极少落地）
冠军挑战者 (Champion-Challenger)	将 10%-20% 流量分配给新模型（挑战者），与旧模型（冠军）并行运行，在线对比业务效果	结果真实可靠，直接反映全量场景下的业务价值	效率低（需长期运行收集数据），资金占用大，有试错风险（新模型若失效会直接导致坏账）	重大策略变更（如模型架构重构、评分卡体系替换）的最终验证
分群评估 (Segmented Evaluation)	按旧模型评分分群，对比新旧模型性能	低成本逼近无偏真相，无需额外业务成本，效率高	需假设 “模型能力具有全局一致性”（即高通过率客群的提升可迁移到其他客群）	常规模型迭代（如特征优化、参数调优）的首选方案

从表中可见，分群评估凭借 “低成本、高效率、高可靠性” 的优势，成为大多数企业常规模型迭代的首选方案。其背后的理论支撑，正是 Rosenbaum 和 Rubin（1983）提出的倾向得分因果推断思想，以及 Paes 等人（2024）进一步拓展的条件风险价值（CVaR）学术框架。

五、分群评估：低成本逼近无偏真相的核心逻辑

分群评估的核心操作是按旧模型评分将客户分为多个子群（如评分 0-10、10-20…90-100 分），然后在各子群内对比新旧模型的性能，重点分析不同评分区间的模型表现差异。其有效性可从两个理论视角和实践逻辑展开：

1. 理论基础：因果推断与分布外泛化的双重支撑

分群评估并非经验性操作，而是有坚实的理论依据：

（1）因果推断视角：控制 “混淆变量”，创造公平对比环境

在因果推断中，混淆变量（Confounding Variable） 是同时影响 “原因”（模型选择）和 “结果”（评估指标）的第三方变量，会导致虚假关联（Paes et al., 2024）。例如，研究 “喝咖啡是否导致心脏病” 时，“年龄” 是混淆变量 —— 年龄大的人更爱喝咖啡，也更易患心脏病，若不控制年龄，会误判咖啡与心脏病的因果关系。

在风控模型评估中，“旧模型认知”（即旧模型评分）正是核心混淆变量：

原因：选择新模型 vs. 旧模型；
结果：模型的坏账率、AUC 等指标；
混淆变量：旧模型评分（它决定了哪些客户被纳入历史数据，直接影响评估结果）。

按旧模型评分分群，本质是固定混淆变量—— 在每个子群内，客户的旧模型评分相似（即 “旧模型认为他们风险水平一致”），此时对比新旧模型的性能，相当于在 “相同风险基线” 上公平较量，消除了样本选择偏差的干扰（Paes et al., 2024；Rosenbaum & Rubin, 1983）。这一逻辑与 Rosenbaum 和 Rubin（1983）提出的 “倾向得分平衡” 思想高度契合：倾向得分通过浓缩协变量信息，实现处理组与对照组的基线平衡；而分群评估通过旧模型评分固定风险基线，本质是风控场景下的 “混淆变量控制” 实践。

（2）分布外泛化视角：高通过率客群接近真实分布

旧模型中，那些被筛选最少的客户群体，其风险分布与全量潜在客户的真实分布最为接近。因为在旧模型的评估体系下，这部分客户中的高风险个体被过滤的比例相对较低。基于此，新模型在这类接近真实分布客群上的性能表现，最能体现其在 “全量场景” 下的泛化能力（Paes et al., 2024）。

各子群由于旧模型筛选程度不同，风险分布存在差异。以通过率仅 10% 的客户群体为例，旧模型对其筛选极为严格，导致该群体仅包含旧模型判定 “勉强可通过” 的客户，其风险分布已被严重扭曲。新模型在这类被深度筛选的客群上所展现出的提升，很可能是 “过拟合”（拟合局部噪声）导致的，难以迁移到全量场景中。

2. 评估逻辑：区分 “真提升” 与 “假优化”

分群评估的实践逻辑，是通过子群对比识别 “真提升”：

在各子群中，假优化表现为仅在部分子群上提升，特别是那些风险分布被严重扭曲的子群，这可能是模型对局部样本的过拟合，无法应对全量场景的未知风险；而真提升则体现为在多个子群，尤其是接近真实分布的子群上均有显著提升。这证明新模型能在不同风险特征的客群中有效区分风险，上线后更可能带来实际价值。

例如：若新模型在旧模型 “80-100 分” 客群（通过率 95%）的 KS 值提升 2 个点，而在 “0-20 分” 客群（通过率 5%）提升 5 个点，需综合考量多个子群的表现，判断整体提升的有效性，避免片面关注某一子群。

3. 推断关系：局部提升与整体效果的关联

分群评估的核心价值，在于它能通过各子群客群的表现推断整体效果。整体来看，新模型在多个子群上的提升情况，共同构成了对全量客群效果的预估。各子群中接近真实分布客群的表现，是整体提升效果的重要参考依据，但并非唯一判断标准。

4. 与多群体公平性的联系：CVaR 的学术共鸣

分群评估的思想，与 Paes 等人（2024）提出的 “基于条件风险价值（CVaR）的多群体公平性评估” 高度一致，同时也延续了 Rosenbaum 和 Rubin（1983）“通过单变量浓缩实现多变量平衡” 的核心思路。

条件风险价值（CVaR） 是衡量 “极端风险下平均损失” 的指标，其公式为：

\(CVaR_\alpha(X) = \mathbb{E}[X \mid X \geq VaR_\alpha(X)]\)

其中，\(VaR_\alpha(X)\) 是置信水平\(\alpha\)下的风险价值（即 “在\(\alpha\)概率下，损失不超过\(VaR_\alpha(X)\)”），而\(CVaR_\alpha(X)\) 则是 “损失超过\(VaR_\alpha(X)\)的极端场景下的平均损失”（Paes et al., 2024）。在多群体公平性评估中，CVaR 用于衡量 “最差表现子群体” 的平均性能差距，避免模型对特定群体的歧视。

分群评估与 CVaR、倾向得分的核心共鸣在于：放弃 “全局最优” 的幻想，通过控制变量聚焦子群体性能。三者都认为，只有在 “条件独立” 的子群体（如按旧模型评分分群、按倾向得分分群、按客户特征分群）中评估性能，才能更准确地逼近真相 —— 这正是分群评估低成本无偏的学术根基。

六、实践启示：分群评估的落地要点

在实际风控迭代中，分群评估的落地可遵循以下步骤：

分群粒度设计：按旧模型评分分为 5-10 个等距或等频子群（如等频分群，确保每个子群样本量充足）；
核心指标选择：除 AUC/KS 外，重点关注子群内的 “坏账率、通过率、lift 值”（lift 值反映新模型相对旧模型的风险区分提升幅度）；
客群综合分析：全面分析各子群表现，重点关注不同通过率子群间的趋势变化，若多个子群新模型的坏账率下降、lift 值提升，可判断为 “有效迭代”；
跨群一致性验证：若部分子群提升显著，但其他子群无提升甚至下降，需验证模型是否存在过拟合问题，避免上线后风险波动。

七、总结

信贷风控模型的 “评估悖论”，本质是幸存者偏差导致的样本分布错位。在众多解决方案中，分群评估凭借 “控制混淆变量、聚焦高通过率客群” 的核心逻辑，以低成本实现了对无偏真相的逼近，成为常规模型迭代的首选方案。其背后的因果推断思想（Rosenbaum & Rubin, 1983）与 CVaR 理论（Paes et al., 2024），不仅为风控评估提供了学术支撑，也为多群体公平性、分布外泛化等前沿问题提供了实践思路。

参考文献

Paes, L. M., Suresh, A. T., Beutel, A., Calmon, F. P., & Beirami, A. (2024). Multi-group fairness evaluation via conditional value-at-risk testing. IEEE Journal on Selected Areas in Information Theory, 5(1), 659–674. https://doi.org/10.1109/JSAIT.2024.3397741

Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55. https://doi.org/10.1093/biomet/70.1.41

分群策略：解决幸存者评估偏差

分群策略系列导航

一、问题本质：被 “幸存者” 局限的评估样本

二、核心矛盾：开发阶段 “高估” 与上线阶段 “低估” 的悖论

三、根本原因：样本分布的 “战场错位”

四、主流解决方案对比

五、分群评估：低成本逼近无偏真相的核心逻辑

1. 理论基础：因果推断与分布外泛化的双重支撑

（1）因果推断视角：控制 “混淆变量”，创造公平对比环境

（2）分布外泛化视角：高通过率客群接近真实分布

2. 评估逻辑：区分 “真提升” 与 “假优化”

3. 推断关系：局部提升与整体效果的关联

4. 与多群体公平性的联系：CVaR 的学术共鸣

六、实践启示：分群评估的落地要点

七、总结

参考文献

分群策略系列导航

分群策略：解决幸存者评估偏差

分群策略 系列导航

一、问题本质：被 “幸存者” 局限的评估样本

二、核心矛盾：开发阶段 “高估” 与上线阶段 “低估” 的悖论

三、根本原因：样本分布的 “战场错位”

四、主流解决方案对比

五、分群评估：低成本逼近无偏真相的核心逻辑

1. 理论基础：因果推断与分布外泛化的双重支撑

（1）因果推断视角：控制 “混淆变量”，创造公平对比环境

（2）分布外泛化视角：高通过率客群接近真实分布

2. 评估逻辑：区分 “真提升” 与 “假优化”

3. 推断关系：局部提升与整体效果的关联

4. 与多群体公平性的联系：CVaR 的学术共鸣

六、实践启示：分群评估的落地要点

七、总结

参考文献

分群策略 系列导航

分群策略系列导航

分群策略系列导航