3 min read

评分卡:信息论核心指标(熵、KL 散度、IV、PSI)的演进与应用

在现代数据科学与风控建模中,“如何量化不确定性”“如何比较分布差异” 是核心问题。从信息论奠基到风控业务落地,熵(Entropy)、KL 散度(Kullback-Leibler Divergence)、信息值(IV)与群体稳定性指标(PSI)构成了一条 “理论→工具→业务” 的完整链路。本文将梳理这些指标的历史脉络、数学本质与实践价值以及关键文献。

一、指标的历史演进:从信息论到风控落地

信息论与统计学的交叉融合,推动了这些核心指标的递进式发展。每一个指标的诞生,都对应着特定场景下 “量化需求” 的重要发展:

1. 1948 年:熵(Entropy)—— 信息论的基石

当通信技术面临 “如何用最少比特传输消息” 的难题时,克劳德・香农(Claude Shannon)在《A Mathematical Theory of Communication》中首次提出 “熵” 的概念,将 “单一概率分布的不确定性” 转化为可计算的数学指标。这一成果直接奠定了信息论的基础,也为后续所有分布量化工具提供了底层逻辑(Shannon, 1948)。

2. 1951 年:KL 散度 —— 分布差异的 “信息损失” 度量

熵仅能描述单一分布的不确定性,却无法比较两个分布的差异。针对这一局限,所罗门・库尔贝克(S. Kullback)与理查德・莱布勒(R. A. Leibler)在《On Information and Sufficiency》中提出 KL 散度,首次量化 “用近似分布拟合真实分布时的信息损失”,填补了 “分布比较” 的理论空白(Kullback & Leibler, 1951)。

3. 1995 年:信息值(IV)—— 风控二分类的 “特征筛选” 工具

随着信用评分卡(Credit Scoring)的普及,风控领域急需 “量化单变量区分好 / 坏用户能力” 的指标。D. J. Hand 等学者在《A Note on the Information Value of Credit Scoring Variables》中,将 KL 散度改造为适用于二分类场景的 IV,通过对称化与业务适配,使其成为风控特征筛选的核心标准(Hand et al., 1995)。

4. 1990s 后期:群体稳定性指标(PSI)—— 风控监控的 “分布预警” 工具

风控模型需长期监控变量分布是否随时间漂移,基于 KL 散度与 IV 的双向比较逻辑,行业衍生出 PSI 指标。它聚焦 “基准分布(如历史数据)与实际分布(如当前数据)的差异”,成为模型生命周期管理中不可或缺的监控工具(其逻辑源于 Kullback-Leibler 与 Hand 的理论)。

二、核心指标解析:数学本质与业务价值

1. 熵(Entropy):单一分布的不确定性量化

核心定位

熵是信息论的 “元工具”,用于衡量单一概率分布的不确定性 —— 分布越随机(如均匀分布),熵值越大;分布越确定(如某事件概率 = 1),熵值越接近 0。

数学公式

  • 离散分布(适用于信源符号、分类变量):

    \(H(X) = -\sum_{i=1}^n p_i \log p_i\)

    其中,\(p_i\) 为变量 X 取第 i 个值的概率,对数基可选 2(单位:比特,bit)、e(自然单位)或 10(十进制单位),风控与通信场景中常用 2 或 e(Shannon, 1948)。

  • 连续分布(适用于噪声、连续变量):

    \(H(X) = -\int_{-\infty}^{+\infty} p(x) \log p(x) dx\)

    其中,\(p(x)\) 为变量 X 的概率密度函数。

关键应用

  • 信源编码:Shannon 信源编码定理指出,“无失真编码的最小平均比特率等于信源熵”—— 例如,均匀分布的 2 符号信源(p₀=p₁=0.5)熵为 1 比特 / 符号,对应 1 比特编码即可无失真传输(Shannon, 1948)。

  • 不确定性评估:如英文字母分布的熵约为 4.03 比特 / 字母,低于均匀 26 字母分布的 4.7 比特 / 字母,这一差异体现了英文的统计冗余,为压缩算法提供依据。

2. KL 散度:两个分布的 “信息损失” 度量

核心定位

KL 散度是熵的延伸,用于量化 “用近似分布 Q 拟合真实分布 P” 时的信息损失 —— 损失越大,说明两个分布的差异越显著,其非对称性也反映了 “拟合方向” 的重要性(Kullback & Leibler, 1951)。

数学公式

  • 离散分布(适用于分箱数据、分类变量分布比较):

    \(D_{KL}(P \parallel Q) = \sum_{i=1}^n P(i) \log \frac{P(i)}{Q(i)}\)

    其中,P 为 “真实分布”(如样本实际分布),Q 为 “近似分布”(如模型预测分布、历史分布)。

  • 与熵的关联

    \(D_{KL}(P \parallel Q) = H(P, Q) - H(P)\)

    式中,\(H(P, Q) = -\sum P(i) \log Q(i)\) 为 “交叉熵”(用 Q 编码 P 的平均比特率),\(H(P)\) 为 P 的熵(用 P 自身编码的最小比特率)——KL 散度本质是 “额外信息损耗”(Kullback & Leibler, 1951)。

关键应用

  • 参数估计:最大似然估计(MLE)的本质是 “最小化 KL 散度”—— 让模型分布尽可能贴近样本分布,减少信息损失。

  • 模型评估:在生成式模型(如 GAN)中,用 KL 散度衡量 “生成分布与真实数据分布的差异”,指导模型优化。

3. 信息值(IV):风控二分类的 “特征区分力” 度量

核心定位

IV 是 KL 散度在风控场景的业务化改造,专门量化 “单变量对好 / 坏用户的区分能力”——IV 值越高,变量筛选风险用户的能力越强(Hand et al., 1995)。

数学公式

基于变量分箱(通常 5-10 箱,避免极端分箱),公式为:

\(IV = \sum_{i=1}^k (\%G_i - \%B_i) \times \ln\left( \frac{\%G_i}{\%B_i} \right)\)

其中:

  • \(\%G_i = \frac{G_i}{G_{\text{total}}}\):第 i 分箱的好用户(如无逾期用户)占全量好用户的比例;

  • \(\%B_i = \frac{B_i}{B_{\text{total}}}\):第 i 分箱的坏用户(如有逾期用户)占全量坏用户的比例;

  • \(k\):分箱数量(Hand et al., 1995)。

与 KL 散度的关联

IV 本质是 “双向 KL 散度的加权和”,即:

\(IV = D_{KL}(G \parallel B) + D_{KL}(B \parallel G)\)

(权重为好 / 坏用户的全量占比),解决了 KL 散度 “非对称” 的问题,更贴合 “区分好坏用户” 的业务目标 —— 无论从 “好分布看坏分布” 还是 “坏分布看好分布”,都能全面衡量区分力(Hand et al., 1995)。

关键应用(风控特征筛选)

  • IV <0.02:无区分力,直接剔除(如 “用户性别” 在低风险场景);

  • 0.02 ≤ IV < 0.1:弱区分力,仅作为辅助特征;

  • 0.1 ≤ IV <0.3:中强区分力,核心特征(如 “历史逾期次数”);

  • IV ≥ 0.3:需警惕数据污染或过拟合,需排查分箱合理性。

4. 群体稳定性指标(PSI):风控的 “分布漂移” 监控工具

核心定位

PSI 是 KL 散度在 “分布稳定性监控” 场景的适配,用于量化 “同一变量在基准分布与实际分布的差异”——PSI 越小,分布越稳定,模型风险越低。

数学公式

基于分箱,公式为:

\(PSI = \sum_{i=1}^k (P_i - Q_i) \times \ln\left( \frac{P_i}{Q_i} \right)\)

其中:

  • \(P_i\):变量在基准分布(如上个月数据)第 i 分箱的占比;

  • \(Q_i\):变量在实际分布(如本月数据)第 i 分箱的占比。

与 KL 散度的关联

PSI 是 “双向 KL 散度的直接加总”,即:

\(PSI = D_{KL}(P \parallel Q) + D_{KL}(Q \parallel P)\)

覆盖 “基准看实际” 和 “实际看基准” 的双向偏移,比单一 KL 散度更全面 —— 避免因单向视角遗漏分布漂移风险(如基准分布看实际差异小,但实际分布看基准差异大的情况)。

关键应用(风控监控)

  • PSI < 0.1:分布稳定,变量可继续使用;

  • 0.1 ≤ PSI < 0.25:轻微波动,需持续观察趋势;

  • PSI ≥ 0.25:分布剧变,变量失效(如 “登录地域” 突然集中在异常地区),需下线变量或重新训练模型。

三、总结:从理论到业务的递进逻辑

熵、KL 散度、IV 与 PSI 并非孤立存在,而是沿着 “理论→工具→业务” 的路径递进:

  1. 理论层:Shannon 的熵(1948)定义了 “不确定性” 的量化方式,是所有指标的底层基础;

  2. 工具层:KL 散度(1951)突破 “单一分布” 限制,提供了 “分布差异” 的信息论度量;

  3. 业务层:IV(1995)与 PSI(1990s 后期)分别针对风控 “特征筛选” 与 “分布监控” 需求,对 KL 散度进行业务适配,成为工业界标准工具。

这些指标的价值,在于将抽象的 “分布差异” 转化为可计算、可解释的业务指标 —— 从通信领域的信源编码,到风控领域的模型构建与监控,信息论的思想始终在驱动数据科学解决实际问题。

参考文献

Hand, D. J., Henley, W. E., & Hutchinson, J. W. (1995). A note on the information value of credit scoring variables. Journal of the Operational Research Society, 46(7), 832-835.

Kullback, S., & Leibler, R. A. (1951). On information and sufficiency. The Annals of Mathematical Statistics, 22(1), 79-86.

Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.