1 min read

评分卡:从Divergence到多维度的评估指标演进

1. 传统指标:Divergence的兴衰

公式
\[\text{Divergence} = \frac{(\mu_{\text{good}} - \mu_{\text{bad}})^2}{(\sigma_{\text{good}}^2 + \sigma_{\text{bad}}^2)/2}\]
- 核心思想:量化好坏客户评分分布的分离度(Fisher, 1936)。
- 局限性:依赖正态分布假设,忽略误分类成本(Hand, 2005)。


2. 排序能力评估:AUC与H-measure

  • AUC
    • 定义:模型将随机好客户排在坏客户之前的概率(公式见正文)。
    • 缺陷:隐含“所有阈值同等重要”假设(Hand, 2009)。
  • H-measure
    • 公式:\[H = 1 - \frac{\min_{\text{classifier}} L}{\min_{\text{random}} L}\]
    • 优势:通过Beta分布模拟代价分布,解决AUC缺陷(Hand, 2009)。

3. 局部评估与概率校准

  • Partial Gini (PG)
    • 公式:\[\text{PG} = \frac{A}{A + B}\]
    • 用途:聚焦高风险尾部客群的区分能力(Pundir & Seshadri, 2012)。
    • 实证:PG与AUC相关性低(Kendall’s τ ~0.7),提供独特信息(Lessmann et al., 2015)。
  • Brier Score (BS)
    • 公式:\[\text{BS} = \frac{1}{N} \sum (p_i - y_i)^2\]
    • 价值:评估概率预测校准度(Lessmann et al., 2015)。

4. 多维度评估框架

Lessmann等(2015)实证结论

  1. 指标协同
    • AUC(整体排序) + PG(尾部风险) + BS(概率校准) + H-measure(代价敏感)。
  2. 业务对齐
    • 统计最优模型(如高AUC)≠ 利润最优(需结合误分类成本)。
  3. 现代模型优势
    • 异构集成模型(如随机森林)在多数指标超越逻辑回归,但需监控稳定性。

延伸阅读

  • Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179–188.
  • Hand, D. J. (2005). Good practice in retail credit scorecard assessment. Journal of the Operational Research Society, 56(9), 1109–1117.
  • Hand, D. J. (2009). Measuring classifier performance: A coherent alternative to the area under the ROC curve. Machine Learning, 77(1), 103–123.
  • Lessmann, S., Baesens, B., Seow, H.-V., & Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring. European Journal of Operational Research, 247(1), 124–136.