一、KS基础:什么是KS统计量
1.1 定义与计算
KS(Kolmogorov-Smirnov)统计量是信用评分模型中最常用的区分能力指标之一。它衡量的是好客户与坏客户在评分分布上的最大分离程度。
数学定义:
$$KS = \max_x |F_{good}(x) - F_{bad}(x)|$$
其中:
- $F_{good}(x)$:好客户的累积分布函数
- $F_{bad}(x)$:坏客户的累积分布函数
- KS取两者差异的最大值
1.2 KS的业务含义
| KS值范围 | 区分能力 | 业务解读 |
|---|---|---|
| < 0.2 | 弱 | 模型几乎无区分能力 |
| 0.2 - 0.4 | 一般 | 有一定区分能力,但不够理想 |
| 0.4 - 0.6 | 良好 | 较好的区分能力 |
| 0.6 - 0.8 | 强 | 优秀的区分能力 |
| > 0.8 | 过强 | 需警惕过拟合或数据泄露 |
1.3 早期学习笔记
以下是我在2017年整理的基础学习材料:
<iframe src="https://jiaxiangbu.github.io/learn_roc/ks_learning_notes.html" width="100%" height="800px">
</iframe>
二、KS监控实战:当KS恶化时怎么办
2.1 问题背景
在信用评分模型的生产环境中,KS下滑是触发模型审查的标准阈值。但KS下降的原因复杂多样:
- 是抽样随机波动还是真实退化?
- 是客群结构变化还是模型失效?
- 是特征分布偏移还是关系断裂?
传统方法容易混淆来源,导致过度反应(误判为模型失效)或反应不足(漏判真实退化)。
2.2 反事实诊断框架
基于 Wang (2026) 的论文,引入四步递进诊断框架,按"从噪声到本质、从易到难"的顺序检验:
步骤1:抽样随机性(Sampling Variability)
核心问题:KS下滑是否在正常随机波动范围内?
方法:
- 重采样/Bootstrap构造KS置信区间
- 反事实假设:“若仅为随机波动,KS应在区间内”
决策关口:
- KS在置信区间内 → 无行动
- KS超出置信区间 → 进入下一步
步骤2:业务结构变化(Business Composition Change)
核心问题:是否因客群/产品/渠道结构变化,而非模型能力下降?
方法:
- 按segment(客群/产品/渠道)分层
- 重新采样对齐结构:按reference data中各segment的占比,从current data中重新采样
- 或使用重要性加权(importance weighting)
关键洞察:
KS是数据集上所有可能切点的最大分离值,不是平均值,因此不能直接用线性加权。
决策关口:
- 结构对齐后KS恢复 → 调整监控基准
- KS仍下滑 → 进入下一步
步骤3:协变量偏移(Covariate Shift)
核心问题:特征分布变了,但特征→违约的关系未变?
方法:
- 特征稳定性检验(PSI, Population Stability Index)
- 分布检验(KS检验、卡方检验)
- 反事实加权:训练一个区分reference和current数据的分类器,计算样本权重
决策关口:
- 加权后KS修复 → 特征监控/补充数据
- KS仍下滑 → 进入下一步
步骤4:模型本质退化(Intrinsic Model Deterioration)
核心问题:模型本身失效——特征与违约的关系断裂?
识别信号:
- 跨时间/跨群体OOT(Out-of-Time)检验
- 区分度和校准度双退化
- 用原数据重训仍表现差
决策:
- 确认退化 → 模型重构/重新校准
2.3 诊断流程图
KS下滑触发
↓
[1] 抽样随机性检验
├── 在置信区间 → 无行动
└── 超出区间 → 继续
↓
[2] 业务结构变化诊断
├── 对齐后KS恢复 → 调整基准
└── 仍下滑 → 继续
↓
[3] 协变量偏移检测
├── 加权后KS修复 → 特征监控
└── 仍下滑 → 继续
↓
[4] 模型本质退化判定
└── 模型重构/重新校准
2.4 技术要点总结
| 维度 | 关键要点 |
|---|---|
| 反事实核心 | 每步构造"若该因素不存在"的虚拟场景,量化该因素贡献 |
| 可审计性 | 全流程定量关口 + 标准化步骤 + 清晰决策链,满足SR 11-7监管要求 |
| 落地性 | 直接嵌入现有MRM(模型风险管理)体系,无需推翻重建 |
三、实践工具
3.1 自研工具
- pyks: Python版KS计算与检验工具包
- rawks: R版KS工具包(已发布至CRAN)
3.2 诊断Checklist
□ 计算KS的Bootstrap置信区间
□ 检查各segment占比变化
□ 运行PSI检验识别特征偏移
□ 评估OOT样本性能
□ 记录诊断决策链(合规要求)
四、参考与延伸
4.1 核心论文
Wang, Y. (2026). A counterfactual diagnostic framework for explaining KS deterioration in credit risk model validation [Preprint]. arXiv:2604.11561.
4.2 监管要求
- SR 11-7: 美联储模型风险管理指引
- 要求:持续监控性能、对显著恶化做可审计根因分析
- 本框架完全对齐SR 11-7的结构化、可复现、可审计要求
4.3 相关阅读
- Partial Gini/局部AUC: 关注尾部风险的高阶指标
- AUC vs KS: 不同场景下的指标选择
五、一句话总结
KS统计量从入门指标升级为诊断工具:通过四步反事实框架,将KS下滑定量归因于随机波动、结构变化、协变量偏移或模型本质退化,实现精准、可审计的模型监控。