评分卡：信息论核心指标（熵、KL 散度、IV、PSI）的演进与应用

在现代数据科学与风控建模中，“如何量化不确定性”“如何比较分布差异” 是核心问题。从信息论奠基到风控业务落地，熵（Entropy）、KL 散度（Kullback-Leibler Divergence）、信息值（IV）与群体稳定性指标（PSI）构成了一条 “理论→工具→业务” 的完整链路。本文将梳理这些指标的历史脉络、数学本质与实践价值以及关键文献。

一、指标的历史演进：从信息论到风控落地

信息论与统计学的交叉融合，推动了这些核心指标的递进式发展。每一个指标的诞生，都对应着特定场景下 “量化需求” 的重要发展：

1. 1948 年：熵（Entropy）—— 信息论的基石

当通信技术面临 “如何用最少比特传输消息” 的难题时，克劳德・香农（Claude Shannon）在《A Mathematical Theory of Communication》中首次提出 “熵” 的概念，将 “单一概率分布的不确定性” 转化为可计算的数学指标。这一成果直接奠定了信息论的基础，也为后续所有分布量化工具提供了底层逻辑（Shannon, 1948）。

2. 1951 年：KL 散度 —— 分布差异的 “信息损失” 度量

熵仅能描述单一分布的不确定性，却无法比较两个分布的差异。针对这一局限，所罗门・库尔贝克（S. Kullback）与理查德・莱布勒（R. A. Leibler）在《On Information and Sufficiency》中提出 KL 散度，首次量化 “用近似分布拟合真实分布时的信息损失”，填补了 “分布比较” 的理论空白（Kullback & Leibler, 1951）。

3. 1995 年：信息值（IV）—— 风控二分类的 “特征筛选” 工具

随着信用评分卡（Credit Scoring）的普及，风控领域急需 “量化单变量区分好 / 坏用户能力” 的指标。D. J. Hand 等学者在《A Note on the Information Value of Credit Scoring Variables》中，将 KL 散度改造为适用于二分类场景的 IV，通过对称化与业务适配，使其成为风控特征筛选的核心标准（Hand et al., 1995）。

4. 1990s 后期：群体稳定性指标（PSI）—— 风控监控的 “分布预警” 工具

风控模型需长期监控变量分布是否随时间漂移，基于 KL 散度与 IV 的双向比较逻辑，行业衍生出 PSI 指标。它聚焦 “基准分布（如历史数据）与实际分布（如当前数据）的差异”，成为模型生命周期管理中不可或缺的监控工具（其逻辑源于 Kullback-Leibler 与 Hand 的理论）。

二、核心指标解析：数学本质与业务价值

1. 熵（Entropy）：单一分布的不确定性量化

核心定位

熵是信息论的 “元工具”，用于衡量单一概率分布的不确定性 —— 分布越随机（如均匀分布），熵值越大；分布越确定（如某事件概率 = 1），熵值越接近 0。

数学公式

离散分布（适用于信源符号、分类变量）：

\(H(X) = -\sum_{i=1}^n p_i \log p_i\)

其中，\(p_i\) 为变量 X 取第 i 个值的概率，对数基可选 2（单位：比特，bit）、e（自然单位）或 10（十进制单位），风控与通信场景中常用 2 或 e（Shannon, 1948）。
连续分布（适用于噪声、连续变量）：

\(H(X) = -\int_{-\infty}^{+\infty} p(x) \log p(x) dx\)

其中，\(p(x)\) 为变量 X 的概率密度函数。

关键应用

信源编码：Shannon 信源编码定理指出，“无失真编码的最小平均比特率等于信源熵”—— 例如，均匀分布的 2 符号信源（p₀=p₁=0.5）熵为 1 比特 / 符号，对应 1 比特编码即可无失真传输（Shannon, 1948）。
不确定性评估：如英文字母分布的熵约为 4.03 比特 / 字母，低于均匀 26 字母分布的 4.7 比特 / 字母，这一差异体现了英文的统计冗余，为压缩算法提供依据。

2. KL 散度：两个分布的 “信息损失” 度量

核心定位

KL 散度是熵的延伸，用于量化 “用近似分布 Q 拟合真实分布 P” 时的信息损失 —— 损失越大，说明两个分布的差异越显著，其非对称性也反映了 “拟合方向” 的重要性（Kullback & Leibler, 1951）。

数学公式

离散分布（适用于分箱数据、分类变量分布比较）：

\(D_{KL}(P \parallel Q) = \sum_{i=1}^n P(i) \log \frac{P(i)}{Q(i)}\)

其中，P 为 “真实分布”（如样本实际分布），Q 为 “近似分布”（如模型预测分布、历史分布）。
与熵的关联：

\(D_{KL}(P \parallel Q) = H(P, Q) - H(P)\)

式中，\(H(P, Q) = -\sum P(i) \log Q(i)\) 为 “交叉熵”（用 Q 编码 P 的平均比特率），\(H(P)\) 为 P 的熵（用 P 自身编码的最小比特率）——KL 散度本质是 “额外信息损耗”（Kullback & Leibler, 1951）。

关键应用

参数估计：最大似然估计（MLE）的本质是 “最小化 KL 散度”—— 让模型分布尽可能贴近样本分布，减少信息损失。
模型评估：在生成式模型（如 GAN）中，用 KL 散度衡量 “生成分布与真实数据分布的差异”，指导模型优化。

3. 信息值（IV）：风控二分类的 “特征区分力” 度量

核心定位

IV 是 KL 散度在风控场景的业务化改造，专门量化 “单变量对好 / 坏用户的区分能力”——IV 值越高，变量筛选风险用户的能力越强（Hand et al., 1995）。

数学公式

基于变量分箱（通常 5-10 箱，避免极端分箱），公式为：

\(IV = \sum_{i=1}^k (\%G_i - \%B_i) \times \ln\left( \frac{\%G_i}{\%B_i} \right)\)

其中：

\(\%G_i = \frac{G_i}{G_{\text{total}}}\)：第 i 分箱的好用户（如无逾期用户）占全量好用户的比例；
\(\%B_i = \frac{B_i}{B_{\text{total}}}\)：第 i 分箱的坏用户（如有逾期用户）占全量坏用户的比例；
\(k\)：分箱数量（Hand et al., 1995）。

与 KL 散度的关联

IV 本质是 “双向 KL 散度的加权和”，即：

\(IV = D_{KL}(G \parallel B) + D_{KL}(B \parallel G)\)

（权重为好 / 坏用户的全量占比），解决了 KL 散度 “非对称” 的问题，更贴合 “区分好坏用户” 的业务目标 —— 无论从 “好分布看坏分布” 还是 “坏分布看好分布”，都能全面衡量区分力（Hand et al., 1995）。

关键应用（风控特征筛选）

IV <0.02：无区分力，直接剔除（如 “用户性别” 在低风险场景）；
0.02 ≤ IV < 0.1：弱区分力，仅作为辅助特征；
0.1 ≤ IV <0.3：中强区分力，核心特征（如 “历史逾期次数”）；
IV ≥ 0.3：需警惕数据污染或过拟合，需排查分箱合理性。

4. 群体稳定性指标（PSI）：风控的 “分布漂移” 监控工具

核心定位

PSI 是 KL 散度在 “分布稳定性监控” 场景的适配，用于量化 “同一变量在基准分布与实际分布的差异”——PSI 越小，分布越稳定，模型风险越低。

数学公式

基于分箱，公式为：

\(PSI = \sum_{i=1}^k (P_i - Q_i) \times \ln\left( \frac{P_i}{Q_i} \right)\)

其中：

\(P_i\)：变量在基准分布（如上个月数据）第 i 分箱的占比；
\(Q_i\)：变量在实际分布（如本月数据）第 i 分箱的占比。

与 KL 散度的关联

PSI 是 “双向 KL 散度的直接加总”，即：

\(PSI = D_{KL}(P \parallel Q) + D_{KL}(Q \parallel P)\)

覆盖 “基准看实际” 和 “实际看基准” 的双向偏移，比单一 KL 散度更全面 —— 避免因单向视角遗漏分布漂移风险（如基准分布看实际差异小，但实际分布看基准差异大的情况）。

关键应用（风控监控）

PSI < 0.1：分布稳定，变量可继续使用；
0.1 ≤ PSI < 0.25：轻微波动，需持续观察趋势；
PSI ≥ 0.25：分布剧变，变量失效（如 “登录地域” 突然集中在异常地区），需下线变量或重新训练模型。

三、总结：从理论到业务的递进逻辑

熵、KL 散度、IV 与 PSI 并非孤立存在，而是沿着 “理论→工具→业务” 的路径递进：

理论层：Shannon 的熵（1948）定义了 “不确定性” 的量化方式，是所有指标的底层基础；
工具层：KL 散度（1951）突破 “单一分布” 限制，提供了 “分布差异” 的信息论度量；
业务层：IV（1995）与 PSI（1990s 后期）分别针对风控 “特征筛选” 与 “分布监控” 需求，对 KL 散度进行业务适配，成为工业界标准工具。

这些指标的价值，在于将抽象的 “分布差异” 转化为可计算、可解释的业务指标 —— 从通信领域的信源编码，到风控领域的模型构建与监控，信息论的思想始终在驱动数据科学解决实际问题。

参考文献

Hand, D. J., Henley, W. E., & Hutchinson, J. W. (1995). A note on the information value of credit scoring variables. Journal of the Operational Research Society, 46(7), 832-835.

Kullback, S., & Leibler, R. A. (1951). On information and sufficiency. The Annals of Mathematical Statistics, 22(1), 79-86.

Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.

评分卡：信息论核心指标（熵、KL 散度、IV、PSI）的演进与应用

评分卡系列导航

一、指标的历史演进：从信息论到风控落地

1. 1948 年：熵（Entropy）—— 信息论的基石

2. 1951 年：KL 散度 —— 分布差异的 “信息损失” 度量

3. 1995 年：信息值（IV）—— 风控二分类的 “特征筛选” 工具

4. 1990s 后期：群体稳定性指标（PSI）—— 风控监控的 “分布预警” 工具

二、核心指标解析：数学本质与业务价值

1. 熵（Entropy）：单一分布的不确定性量化

核心定位

数学公式

关键应用

2. KL 散度：两个分布的 “信息损失” 度量

核心定位

数学公式

关键应用

3. 信息值（IV）：风控二分类的 “特征区分力” 度量

核心定位

数学公式

与 KL 散度的关联

关键应用（风控特征筛选）

4. 群体稳定性指标（PSI）：风控的 “分布漂移” 监控工具

核心定位

数学公式

与 KL 散度的关联

关键应用（风控监控）

三、总结：从理论到业务的递进逻辑

参考文献

评分卡系列导航

评分卡：信息论核心指标（熵、KL 散度、IV、PSI）的演进与应用

评分卡 系列导航

一、指标的历史演进：从信息论到风控落地

1. 1948 年：熵（Entropy）—— 信息论的基石

2. 1951 年：KL 散度 —— 分布差异的 “信息损失” 度量

3. 1995 年：信息值（IV）—— 风控二分类的 “特征筛选” 工具

4. 1990s 后期：群体稳定性指标（PSI）—— 风控监控的 “分布预警” 工具

二、核心指标解析：数学本质与业务价值

1. 熵（Entropy）：单一分布的不确定性量化

核心定位

数学公式

关键应用

2. KL 散度：两个分布的 “信息损失” 度量

核心定位

数学公式

关键应用

3. 信息值（IV）：风控二分类的 “特征区分力” 度量

核心定位

数学公式

与 KL 散度的关联

关键应用（风控特征筛选）

4. 群体稳定性指标（PSI）：风控的 “分布漂移” 监控工具

核心定位

数学公式

与 KL 散度的关联

关键应用（风控监控）

三、总结：从理论到业务的递进逻辑

参考文献

评分卡 系列导航

评分卡系列导航

评分卡系列导航