1 min read

评分卡:二分类模型 AUC 异常排查及优化

二分类任务中,AUC值异常偏高(如FPR达0.2时TPR即100%)并非模型性能优异,反而可能预示数据或建模环节存在隐患。结合建模实践,需从特征有效性及验证集合理性四方面系统排查。

特征层面,需优先核查高重要性特征是否存在穿越问题。部分场景中,特征直接包含目标变量信息或与标签存在非业务逻辑关联(如误将用户ID入模),会导致正负样本特征分布呈现断层式区分。可通过分层绘制特征直方图、箱线图,对比正负样本的取值区间,若存在完全分离的情况,大概率穿越了,需移除该特征后重新训练。

验证集方面,需检查OOT数据集的代表性。若OOT数据集缺乏腰部边界样本,仅包含易区分的头尾样本,会使模型性能评估结果偏高。可通过统计OOT数据中正负样本的特征重合度、边界样本占比,判断其是否符合实际业务场景的分布特征,必要时重新选择代表性的验证集。