KS统计量：从基础概念到反事实诊断框架

一、KS基础：什么是KS统计量

1.1 定义与计算

KS（Kolmogorov-Smirnov）统计量是信用评分模型中最常用的区分能力指标之一。它衡量的是好客户与坏客户在评分分布上的最大分离程度。

数学定义：

$$KS = \max_x |F_{good}(x) - F_{bad}(x)|$$

其中：

$F_{good}(x)$：好客户的累积分布函数
$F_{bad}(x)$：坏客户的累积分布函数
KS取两者差异的最大值

1.2 KS的业务含义

KS值范围	区分能力	业务解读
< 0.2	弱	模型几乎无区分能力
0.2 - 0.4	一般	有一定区分能力，但不够理想
0.4 - 0.6	良好	较好的区分能力
0.6 - 0.8	强	优秀的区分能力
> 0.8	过强	需警惕过拟合或数据泄露

1.3 早期学习笔记

以下是我在2017年整理的基础学习材料：

<iframe src="https://jiaxiangbu.github.io/learn_roc/ks_learning_notes.html" width="100%" height="800px">
</iframe>

二、KS监控实战：当KS恶化时怎么办

2.1 问题背景

在信用评分模型的生产环境中，KS下滑是触发模型审查的标准阈值。但KS下降的原因复杂多样：

是抽样随机波动还是真实退化？
是客群结构变化还是模型失效？
是特征分布偏移还是关系断裂？

传统方法容易混淆来源，导致过度反应（误判为模型失效）或反应不足（漏判真实退化）。

2.2 反事实诊断框架

基于 Wang (2026) 的论文，引入四步递进诊断框架，按"从噪声到本质、从易到难"的顺序检验：

步骤1：抽样随机性（Sampling Variability）

核心问题：KS下滑是否在正常随机波动范围内？

方法：

重采样/Bootstrap构造KS置信区间
反事实假设：“若仅为随机波动，KS应在区间内”

决策关口：

KS在置信区间内 → 无行动
KS超出置信区间 → 进入下一步

步骤2：业务结构变化（Business Composition Change）

核心问题：是否因客群/产品/渠道结构变化，而非模型能力下降？

方法：

按segment（客群/产品/渠道）分层
重新采样对齐结构：按reference data中各segment的占比，从current data中重新采样
或使用重要性加权（importance weighting）

关键洞察：

KS是数据集上所有可能切点的最大分离值，不是平均值，因此不能直接用线性加权。

决策关口：

结构对齐后KS恢复 → 调整监控基准
KS仍下滑 → 进入下一步

步骤3：协变量偏移（Covariate Shift）

核心问题：特征分布变了，但特征→违约的关系未变？

方法：

特征稳定性检验（PSI, Population Stability Index）
分布检验（KS检验、卡方检验）
反事实加权：训练一个区分reference和current数据的分类器，计算样本权重

决策关口：

加权后KS修复 → 特征监控/补充数据
KS仍下滑 → 进入下一步

步骤4：模型本质退化（Intrinsic Model Deterioration）

核心问题：模型本身失效——特征与违约的关系断裂？

识别信号：

跨时间/跨群体OOT（Out-of-Time）检验
区分度和校准度双退化
用原数据重训仍表现差

决策：

确认退化 → 模型重构/重新校准

2.3 诊断流程图

KS下滑触发
    ↓
[1] 抽样随机性检验
    ├── 在置信区间 → 无行动
    └── 超出区间 → 继续
            ↓
[2] 业务结构变化诊断
    ├── 对齐后KS恢复 → 调整基准
    └── 仍下滑 → 继续
            ↓
[3] 协变量偏移检测
    ├── 加权后KS修复 → 特征监控
    └── 仍下滑 → 继续
            ↓
[4] 模型本质退化判定
    └── 模型重构/重新校准

2.4 技术要点总结

维度	关键要点
反事实核心	每步构造"若该因素不存在"的虚拟场景，量化该因素贡献
可审计性	全流程定量关口 + 标准化步骤 + 清晰决策链，满足SR 11-7监管要求
落地性	直接嵌入现有MRM（模型风险管理）体系，无需推翻重建

三、实践工具

3.1 自研工具

pyks: Python版KS计算与检验工具包
rawks: R版KS工具包（已发布至CRAN）

3.2 诊断Checklist

□ 计算KS的Bootstrap置信区间
□ 检查各segment占比变化
□ 运行PSI检验识别特征偏移
□ 评估OOT样本性能
□ 记录诊断决策链（合规要求）

四、参考与延伸

4.1 核心论文

Wang, Y. (2026). A counterfactual diagnostic framework for explaining KS deterioration in credit risk model validation [Preprint]. arXiv:2604.11561.

4.2 监管要求

SR 11-7: 美联储模型风险管理指引
- 要求：持续监控性能、对显著恶化做可审计根因分析
- 本框架完全对齐SR 11-7的结构化、可复现、可审计要求

4.3 相关阅读

Partial Gini/局部AUC: 关注尾部风险的高阶指标
AUC vs KS: 不同场景下的指标选择

五、一句话总结

KS统计量从入门指标升级为诊断工具：通过四步反事实框架，将KS下滑定量归因于随机波动、结构变化、协变量偏移或模型本质退化，实现精准、可审计的模型监控。

KS统计量：从基础概念到反事实诊断框架

KS统计量系列导航

一、KS基础：什么是KS统计量

1.1 定义与计算

1.2 KS的业务含义

1.3 早期学习笔记

二、KS监控实战：当KS恶化时怎么办

2.1 问题背景

2.2 反事实诊断框架

步骤1：抽样随机性（Sampling Variability）

步骤2：业务结构变化（Business Composition Change）

步骤3：协变量偏移（Covariate Shift）

步骤4：模型本质退化（Intrinsic Model Deterioration）

2.3 诊断流程图

2.4 技术要点总结

三、实践工具

3.1 自研工具

3.2 诊断Checklist

四、参考与延伸

4.1 核心论文

4.2 监管要求

4.3 相关阅读

五、一句话总结

KS统计量系列导航

KS统计量：从基础概念到反事实诊断框架

KS统计量 系列导航

一、KS基础：什么是KS统计量

1.1 定义与计算

1.2 KS的业务含义

1.3 早期学习笔记

二、KS监控实战：当KS恶化时怎么办

2.1 问题背景

2.2 反事实诊断框架

步骤1：抽样随机性（Sampling Variability）

步骤2：业务结构变化（Business Composition Change）

步骤3：协变量偏移（Covariate Shift）

步骤4：模型本质退化（Intrinsic Model Deterioration）

2.3 诊断流程图

2.4 技术要点总结

三、实践工具

3.1 自研工具

3.2 诊断Checklist

四、参考与延伸

4.1 核心论文

4.2 监管要求

4.3 相关阅读

五、一句话总结

KS统计量 系列导航

KS统计量系列导航

KS统计量系列导航