KS统计量：从基础概念到反事实诊断框架

引言

KS（Kolmogorov-Smirnov）统计量是信用评分模型中广泛使用的区分能力评估指标。自2017年首次接触该指标以来，对其理解经历了从工具使用到方法论的深化过程。

近期阅读了Wang（2026）发表在arXiv的研究，该文提出了KS恶化的反事实诊断框架，其核心思想值得借鉴：不仅关注KS数值变化本身，更通过反事实推理追溯变化根因。本文将KS的基础概念与该诊断框架相结合，整理形成从理论到实践的完整知识体系。

第一部分：KS统计量的基础

定义与数学表达

KS统计量衡量的是好客户与坏客户在评分分布上的最大分离程度。其数学定义为：

$$KS = \max_x |F_{good}(x) - F_{bad}(x)|$$

其中，$F_{good}(x)$和$F_{bad}(x)$分别表示好客户和坏客户的累积分布函数。需要特别注意的是，KS取的是最大值而非平均值，这一性质在后续的结构调整计算中具有重要意义。

业务解读标准

基于项目实践，KS数值的业务含义可归纳如下：

KS值范围	区分能力评估	业务含义
< 0.2	弱	模型区分能力接近随机猜测
0.2 - 0.4	一般	具备基础区分能力，但性能有限
0.4 - 0.6	良好	满足多数业务场景需求
0.6 - 0.8	强	区分能力优秀，需排查数据泄露风险
> 0.8	过强	需警惕过拟合或特征包含未来信息

早期学习资料

2017年初次学习KS时整理的基础材料参见：KS学习笔记

第二部分：KS恶化的诊断方法论

问题背景

在信用评分模型的生产监控中，KS下滑是触发模型审查的重要信号。然而，KS下降的原因具有多样性：

抽样随机波动
客群结构变化
特征分布偏移
模型本身退化

传统方法往往难以准确区分上述因素，容易导致两种误判：一是过度反应（将非模型因素误判为模型失效），二是反应不足（遗漏真实的模型退化）。

四步反事实诊断框架

基于Wang（2026）的研究，建立如下递进式诊断流程：

步骤一：抽样随机性检验

核心问题：观测到的KS下滑是否处于正常随机波动范围内。

方法：采用Bootstrap重采样技术构造KS统计量的置信区间，建立反事实假设——若下滑仅由抽样波动引起，则当前KS应落在置信区间内。

决策规则：

当前KS在置信区间内 → 判定为正常波动，无需采取行动
当前KS超出置信区间 → 进入下一步诊断

步骤二：业务结构变化诊断

核心问题：KS下滑是否源于客群/产品/渠道结构的变化，而非模型区分能力下降。

方法：

按segment维度（客群、产品、渠道）进行分层分析
对比reference期与current期各segment的占比变化

关键技术要点：论文中提及的加权平均方法存在理论缺陷——由于KS是最大值而非平均值，直接线性加权不符合其数学定义。建议采用以下两种替代方案：

重采样对齐：按照reference期各segment的占比，从current期进行有放回重采样，构造结构对齐后的数据集重新计算KS
重要性加权：基于密度比估计为current期样本赋权重，实现样本级别的细粒度调整

决策规则：

结构对齐后KS恢复 → 调整监控基准，无需重构模型
KS仍显著下滑 → 进入下一步诊断

步骤三：协变量偏移检测

核心问题：特征分布是否发生变化，而特征与违约的映射关系保持稳定。

检测方法：

PSI（Population Stability Index）检验特征稳定性
训练二分类器区分reference期与current期样本，若区分度显著则表明分布存在偏移

反事实加权方法：为current期样本赋予权重，使其分布逼近reference期，重新计算加权KS。若加权后KS恢复，则说明问题源于特征分布偏移，模型本身仍有效。

决策规则：

加权后KS恢复 → 加强特征监控，必要时补充数据
KS仍显著下滑 → 进入下一步诊断

步骤四：模型本质退化判定

核心问题：模型是否真正失效——即特征与违约之间的映射关系发生断裂。

判定信号：

Out-of-Time（OOT）样本上区分度和校准度同时下降
使用原数据重新训练后性能仍不理想
特征重要性分布发生显著变化

决策：确认模型退化后，启动模型重构或重新校准流程。

诊断流程总览

KS下滑触发
    ↓
[1] 抽样随机性检验
    ├── 在置信区间内 → 无行动
    └── 超出区间 → 继续
            ↓
[2] 业务结构变化诊断
    ├── 对齐后KS恢复 → 调整基准
    └── 仍下滑 → 继续
            ↓
[3] 协变量偏移检测
    ├── 加权后KS修复 → 特征监控
    └── 仍下滑 → 继续
            ↓
[4] 模型本质退化判定
    └── 模型重构/重新校准

方法论核心：反事实思维

传统监控将KS视为静态阈值指标，而反事实框架强调动态归因：

核心问题从"KS下降了多少"转变为"若特定因素不存在，KS将是多少"。

通过构造虚拟场景并量化实际KS与反事实KS的差异，可精确归因各因素对KS下滑的贡献度。

第三部分：实践工具与清单

自研工具

pyks：Python版KS计算与统计检验工具
rawks：R版KS工具包（已发布至CRAN）

诊断检查清单

序号	检查项	方法
1	抽样随机性	Bootstrap构造KS置信区间
2	客群结构	各segment占比对比分析
3	特征稳定性	PSI检验
4	模型性能	OOT样本评估
5	合规记录	诊断过程与决策依据文档化

参考

核心论文

Wang, Y. (2026). A counterfactual diagnostic framework for explaining KS deterioration in credit risk model validation [Preprint]. arXiv:2604.11561.

监管框架

SR 11-7（美联储模型风险管理指引）要求：建立持续的模型性能监控机制，对显著恶化进行结构化、可复现、可审计的根因分析。本文所述四步框架与该监管要求高度契合。

结语

KS统计量从单纯的性能指标演进为诊断工具，体现了风控建模方法论的发展：从关注"是什么"到追问"为什么"。反事实诊断框架的价值在于提供了一套系统化、可量化的归因方法，使模型监控从被动响应转向主动诊断。

对于风控从业者而言，深入理解指标背后的方法论，比单纯掌握计算方法更具长期价值。

KS统计量：从基础概念到反事实诊断框架

KS统计量系列导航

引言

第一部分：KS统计量的基础

定义与数学表达

业务解读标准

早期学习资料

第二部分：KS恶化的诊断方法论

问题背景

四步反事实诊断框架

步骤一：抽样随机性检验

步骤二：业务结构变化诊断

步骤三：协变量偏移检测

步骤四：模型本质退化判定

诊断流程总览

方法论核心：反事实思维

第三部分：实践工具与清单

自研工具

诊断检查清单

参考

结语

KS统计量系列导航

KS统计量：从基础概念到反事实诊断框架

KS统计量 系列导航

引言

第一部分：KS统计量的基础

定义与数学表达

业务解读标准

早期学习资料

第二部分：KS恶化的诊断方法论

问题背景

四步反事实诊断框架

步骤一：抽样随机性检验

步骤二：业务结构变化诊断

步骤三：协变量偏移检测

步骤四：模型本质退化判定

诊断流程总览

方法论核心：反事实思维

第三部分：实践工具与清单

自研工具

诊断检查清单

参考

结语

KS统计量 系列导航

KS统计量系列导航

KS统计量系列导航