2 min read

KS统计量:从基础概念到反事实诊断框架

一、KS基础:什么是KS统计量

1.1 定义与计算

KS(Kolmogorov-Smirnov)统计量是信用评分模型中最常用的区分能力指标之一。它衡量的是好客户与坏客户在评分分布上的最大分离程度

数学定义:

$$KS = \max_x |F_{good}(x) - F_{bad}(x)|$$

其中:

  • $F_{good}(x)$:好客户的累积分布函数
  • $F_{bad}(x)$:坏客户的累积分布函数
  • KS取两者差异的最大值

1.2 KS的业务含义

KS值范围 区分能力 业务解读
< 0.2 模型几乎无区分能力
0.2 - 0.4 一般 有一定区分能力,但不够理想
0.4 - 0.6 良好 较好的区分能力
0.6 - 0.8 优秀的区分能力
> 0.8 过强 需警惕过拟合或数据泄露

1.3 早期学习笔记

以下是我在2017年整理的基础学习材料:

<iframe src="https://jiaxiangbu.github.io/learn_roc/ks_learning_notes.html" width="100%" height="800px">
</iframe>

二、KS监控实战:当KS恶化时怎么办

2.1 问题背景

在信用评分模型的生产环境中,KS下滑是触发模型审查的标准阈值。但KS下降的原因复杂多样:

  • 抽样随机波动还是真实退化
  • 客群结构变化还是模型失效
  • 特征分布偏移还是关系断裂

传统方法容易混淆来源,导致过度反应(误判为模型失效)或反应不足(漏判真实退化)。

2.2 反事实诊断框架

基于 Wang (2026) 的论文,引入四步递进诊断框架,按"从噪声到本质、从易到难"的顺序检验:

步骤1:抽样随机性(Sampling Variability)

核心问题:KS下滑是否在正常随机波动范围内?

方法

  • 重采样/Bootstrap构造KS置信区间
  • 反事实假设:“若仅为随机波动,KS应在区间内”

决策关口

  • KS在置信区间内 → 无行动
  • KS超出置信区间 → 进入下一步

步骤2:业务结构变化(Business Composition Change)

核心问题:是否因客群/产品/渠道结构变化,而非模型能力下降?

方法

  • 按segment(客群/产品/渠道)分层
  • 重新采样对齐结构:按reference data中各segment的占比,从current data中重新采样
  • 或使用重要性加权(importance weighting)

关键洞察

KS是数据集上所有可能切点的最大分离值,不是平均值,因此不能直接用线性加权。

决策关口

  • 结构对齐后KS恢复 → 调整监控基准
  • KS仍下滑 → 进入下一步

步骤3:协变量偏移(Covariate Shift)

核心问题:特征分布变了,但特征→违约的关系未变?

方法

  • 特征稳定性检验(PSI, Population Stability Index)
  • 分布检验(KS检验、卡方检验)
  • 反事实加权:训练一个区分reference和current数据的分类器,计算样本权重

决策关口

  • 加权后KS修复 → 特征监控/补充数据
  • KS仍下滑 → 进入下一步

步骤4:模型本质退化(Intrinsic Model Deterioration)

核心问题:模型本身失效——特征与违约的关系断裂?

识别信号

  • 跨时间/跨群体OOT(Out-of-Time)检验
  • 区分度和校准度双退化
  • 用原数据重训仍表现差

决策

  • 确认退化 → 模型重构/重新校准

2.3 诊断流程图

KS下滑触发
    ↓
[1] 抽样随机性检验
    ├── 在置信区间 → 无行动
    └── 超出区间 → 继续
            ↓
[2] 业务结构变化诊断
    ├── 对齐后KS恢复 → 调整基准
    └── 仍下滑 → 继续
            ↓
[3] 协变量偏移检测
    ├── 加权后KS修复 → 特征监控
    └── 仍下滑 → 继续
            ↓
[4] 模型本质退化判定
    └── 模型重构/重新校准

2.4 技术要点总结

维度 关键要点
反事实核心 每步构造"若该因素不存在"的虚拟场景,量化该因素贡献
可审计性 全流程定量关口 + 标准化步骤 + 清晰决策链,满足SR 11-7监管要求
落地性 直接嵌入现有MRM(模型风险管理)体系,无需推翻重建

三、实践工具

3.1 自研工具

  • pyks: Python版KS计算与检验工具包
  • rawks: R版KS工具包(已发布至CRAN)

3.2 诊断Checklist

□ 计算KS的Bootstrap置信区间
□ 检查各segment占比变化
□ 运行PSI检验识别特征偏移
□ 评估OOT样本性能
□ 记录诊断决策链(合规要求)

四、参考与延伸

4.1 核心论文

Wang, Y. (2026). A counterfactual diagnostic framework for explaining KS deterioration in credit risk model validation [Preprint]. arXiv:2604.11561.

4.2 监管要求

  • SR 11-7: 美联储模型风险管理指引
    • 要求:持续监控性能、对显著恶化做可审计根因分析
    • 本框架完全对齐SR 11-7的结构化、可复现、可审计要求

4.3 相关阅读

  • Partial Gini/局部AUC: 关注尾部风险的高阶指标
  • AUC vs KS: 不同场景下的指标选择

五、一句话总结

KS统计量从入门指标升级为诊断工具:通过四步反事实框架,将KS下滑定量归因于随机波动、结构变化、协变量偏移或模型本质退化,实现精准、可审计的模型监控。