1 min read

KS统计量:从基础概念到反事实诊断框架

引言

KS(Kolmogorov-Smirnov)统计量是信用评分模型中广泛使用的区分能力评估指标。自2017年首次接触该指标以来,对其理解经历了从工具使用到方法论的深化过程。

近期阅读了Wang(2026)发表在arXiv的研究,该文提出了KS恶化的反事实诊断框架,其核心思想值得借鉴:不仅关注KS数值变化本身,更通过反事实推理追溯变化根因。本文将KS的基础概念与该诊断框架相结合,整理形成从理论到实践的完整知识体系。

第一部分:KS统计量的基础

定义与数学表达

KS统计量衡量的是好客户与坏客户在评分分布上的最大分离程度。其数学定义为:

$$KS = \max_x |F_{good}(x) - F_{bad}(x)|$$

其中,$F_{good}(x)$和$F_{bad}(x)$分别表示好客户和坏客户的累积分布函数。需要特别注意的是,KS取的是最大值而非平均值,这一性质在后续的结构调整计算中具有重要意义。

业务解读标准

基于项目实践,KS数值的业务含义可归纳如下:

KS值范围 区分能力评估 业务含义
< 0.2 模型区分能力接近随机猜测
0.2 - 0.4 一般 具备基础区分能力,但性能有限
0.4 - 0.6 良好 满足多数业务场景需求
0.6 - 0.8 区分能力优秀,需排查数据泄露风险
> 0.8 过强 需警惕过拟合或特征包含未来信息

早期学习资料

2017年初次学习KS时整理的基础材料参见:KS学习笔记


第二部分:KS恶化的诊断方法论

问题背景

在信用评分模型的生产监控中,KS下滑是触发模型审查的重要信号。然而,KS下降的原因具有多样性:

  • 抽样随机波动
  • 客群结构变化
  • 特征分布偏移
  • 模型本身退化

传统方法往往难以准确区分上述因素,容易导致两种误判:一是过度反应(将非模型因素误判为模型失效),二是反应不足(遗漏真实的模型退化)。

四步反事实诊断框架

基于Wang(2026)的研究,建立如下递进式诊断流程:

步骤一:抽样随机性检验

核心问题:观测到的KS下滑是否处于正常随机波动范围内。

方法:采用Bootstrap重采样技术构造KS统计量的置信区间,建立反事实假设——若下滑仅由抽样波动引起,则当前KS应落在置信区间内。

决策规则

  • 当前KS在置信区间内 → 判定为正常波动,无需采取行动
  • 当前KS超出置信区间 → 进入下一步诊断

步骤二:业务结构变化诊断

核心问题:KS下滑是否源于客群/产品/渠道结构的变化,而非模型区分能力下降。

方法

  1. 按segment维度(客群、产品、渠道)进行分层分析
  2. 对比reference期与current期各segment的占比变化

关键技术要点:论文中提及的加权平均方法存在理论缺陷——由于KS是最大值而非平均值,直接线性加权不符合其数学定义。建议采用以下两种替代方案:

  1. 重采样对齐:按照reference期各segment的占比,从current期进行有放回重采样,构造结构对齐后的数据集重新计算KS
  2. 重要性加权:基于密度比估计为current期样本赋权重,实现样本级别的细粒度调整

决策规则

  • 结构对齐后KS恢复 → 调整监控基准,无需重构模型
  • KS仍显著下滑 → 进入下一步诊断

步骤三:协变量偏移检测

核心问题:特征分布是否发生变化,而特征与违约的映射关系保持稳定。

检测方法

  • PSI(Population Stability Index)检验特征稳定性
  • 训练二分类器区分reference期与current期样本,若区分度显著则表明分布存在偏移

反事实加权方法:为current期样本赋予权重,使其分布逼近reference期,重新计算加权KS。若加权后KS恢复,则说明问题源于特征分布偏移,模型本身仍有效。

决策规则

  • 加权后KS恢复 → 加强特征监控,必要时补充数据
  • KS仍显著下滑 → 进入下一步诊断

步骤四:模型本质退化判定

核心问题:模型是否真正失效——即特征与违约之间的映射关系发生断裂。

判定信号

  • Out-of-Time(OOT)样本上区分度和校准度同时下降
  • 使用原数据重新训练后性能仍不理想
  • 特征重要性分布发生显著变化

决策:确认模型退化后,启动模型重构或重新校准流程。

诊断流程总览

KS下滑触发
    ↓
[1] 抽样随机性检验
    ├── 在置信区间内 → 无行动
    └── 超出区间 → 继续
            ↓
[2] 业务结构变化诊断
    ├── 对齐后KS恢复 → 调整基准
    └── 仍下滑 → 继续
            ↓
[3] 协变量偏移检测
    ├── 加权后KS修复 → 特征监控
    └── 仍下滑 → 继续
            ↓
[4] 模型本质退化判定
    └── 模型重构/重新校准

方法论核心:反事实思维

传统监控将KS视为静态阈值指标,而反事实框架强调动态归因:

核心问题从"KS下降了多少"转变为"若特定因素不存在,KS将是多少"。

通过构造虚拟场景并量化实际KS与反事实KS的差异,可精确归因各因素对KS下滑的贡献度。


第三部分:实践工具与清单

自研工具

  • pyks:Python版KS计算与统计检验工具
  • rawks:R版KS工具包(已发布至CRAN)

诊断检查清单

序号 检查项 方法
1 抽样随机性 Bootstrap构造KS置信区间
2 客群结构 各segment占比对比分析
3 特征稳定性 PSI检验
4 模型性能 OOT样本评估
5 合规记录 诊断过程与决策依据文档化

参考

核心论文

Wang, Y. (2026). A counterfactual diagnostic framework for explaining KS deterioration in credit risk model validation [Preprint]. arXiv:2604.11561.

监管框架

SR 11-7(美联储模型风险管理指引)要求:建立持续的模型性能监控机制,对显著恶化进行结构化、可复现、可审计的根因分析。本文所述四步框架与该监管要求高度契合。


结语

KS统计量从单纯的性能指标演进为诊断工具,体现了风控建模方法论的发展:从关注"是什么"到追问"为什么"。反事实诊断框架的价值在于提供了一套系统化、可量化的归因方法,使模型监控从被动响应转向主动诊断。

对于风控从业者而言,深入理解指标背后的方法论,比单纯掌握计算方法更具长期价值。