1. 传统指标:Divergence的兴衰
公式:
\[\text{Divergence} = \frac{(\mu_{\text{good}} - \mu_{\text{bad}})^2}{(\sigma_{\text{good}}^2 + \sigma_{\text{bad}}^2)/2}\]
- 核心思想:量化好坏客户评分分布的分离度(Fisher, 1936)。
- 局限性:依赖正态分布假设,忽略误分类成本(Hand, 2005)。
2. 排序能力评估:AUC与H-measure
- AUC:
- 定义:模型将随机好客户排在坏客户之前的概率(公式见正文)。
- 缺陷:隐含“所有阈值同等重要”假设(Hand, 2009)。
- 定义:模型将随机好客户排在坏客户之前的概率(公式见正文)。
- H-measure:
- 公式:\[H = 1 - \frac{\min_{\text{classifier}} L}{\min_{\text{random}} L}\]
- 优势:通过Beta分布模拟代价分布,解决AUC缺陷(Hand, 2009)。
- 公式:\[H = 1 - \frac{\min_{\text{classifier}} L}{\min_{\text{random}} L}\]
3. 局部评估与概率校准
- Partial Gini (PG):
- 公式:\[\text{PG} = \frac{A}{A + B}\]
- 用途:聚焦高风险尾部客群的区分能力(Pundir & Seshadri, 2012)。
- 实证:PG与AUC相关性低(Kendall’s τ ~0.7),提供独特信息(Lessmann et al., 2015)。
- 公式:\[\text{PG} = \frac{A}{A + B}\]
- Brier Score (BS):
- 公式:\[\text{BS} = \frac{1}{N} \sum (p_i - y_i)^2\]
- 价值:评估概率预测校准度(Lessmann et al., 2015)。
- 公式:\[\text{BS} = \frac{1}{N} \sum (p_i - y_i)^2\]
4. 多维度评估框架
Lessmann等(2015)实证结论:
- 指标协同:
- AUC(整体排序) + PG(尾部风险) + BS(概率校准) + H-measure(代价敏感)。
- AUC(整体排序) + PG(尾部风险) + BS(概率校准) + H-measure(代价敏感)。
- 业务对齐:
- 统计最优模型(如高AUC)≠ 利润最优(需结合误分类成本)。
- 统计最优模型(如高AUC)≠ 利润最优(需结合误分类成本)。
- 现代模型优势:
- 异构集成模型(如随机森林)在多数指标超越逻辑回归,但需监控稳定性。
延伸阅读
- Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179–188.
- Hand, D. J. (2005). Good practice in retail credit scorecard assessment. Journal of the Operational Research Society, 56(9), 1109–1117.
- Hand, D. J. (2009). Measuring classifier performance: A coherent alternative to the area under the ROC curve. Machine Learning, 77(1), 103–123.
- Lessmann, S., Baesens, B., Seow, H.-V., & Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring. European Journal of Operational Research, 247(1), 124–136.