一、背景与问题
信贷逾期预测中,标签延迟是长期困扰风控建模的核心难题——借款人在放款后需要经历漫长的表现期,才能最终确认是否真实逾期。在这段时间内,大量样本处于"标签未确认"状态,传统的处理方式是以硬标签(0/1)直接标注,导致将未来可能逾期的样本误判为负样本,产生系统性假阴性偏差,直接影响模型效果。
《Follow the TRACE》论文针对在线广告延迟转化场景提出了标签处理思路。本文借鉴其核心逻辑,设计适配信贷场景的软标签体系,实现从"被动等待真实标签"到"主动依据行为轨迹推断风险概率"的转变,有效平衡标签准确性与风控实时性。
二、软标签体系设计:四步走
1. 划定观测周期
设定固定的最大逾期表现期(如90天),超出该周期未发生逾期的样本,确定为真实负样本;未超出表现期、暂未逾期的样本,均视为标签未确认样本。
2. 禁用硬负标签标注
对于表现期内暂未逾期的样本,不直接标注为0(非逾期),避免将未来可能逾期的样本误判为负样本,从源头减少假阴性偏差。
3. 基于行为轨迹构建软标签
以用户放款后的动态行为轨迹为核心依据,建模输出逾期概率作为软标签,替代传统硬0标签,实现对未确认样本的风险量化与标签修正。
行为轨迹包含以下核心维度:
第一,登录频次:用户活跃度反映资金紧张程度与还款意愿,登录骤降往往是风险信号。
第二,账户操作:操作行为异常(如频繁修改绑卡信息、反复进入还款页面却不完成支付)可反映还款犹豫度。
第三,还款行为:历史提前还款、准时还款、延期还款的行为模式是核心预测变量。
第四,征信查询:频繁的贷款申请查询反映多头借贷风险,是强风险信号。
第五,负债变动:负债率上升速度快慢直接关联还款能力变化。
第六,资料完善状态:资料完整度下降(如解绑银行卡、关闭消息通知)往往是高风险行为的前兆。
4. 动态权重校准
结合轨迹完整度、模型预测置信度动态调整软标签权重:对早期行为稀疏的样本降低权重,提升标签可靠性;待样本超出表现期、真实标签确认后,再以真实标签完成模型校准。
三、核心价值:平衡准确性与实时性
传统方法的困境在于:要么等待漫长表现期确认真实标签,导致模型训练严重滞后于业务;要么直接用硬标签,导致假阴性偏差累积。
软标签体系的价值,正是通过行为轨迹建模,在未确认标签的样本上注入风险预判信息,让模型在早期就有可学习的风险信号,而非面对一片"假负样本"。
动态权重校准则进一步保障了标签质量:行为数据越充分的样本,软标签越可信;行为数据稀疏的早期样本,降低其对模型的干扰权重;待真实标签确认后,完成最终校准,确保模型对全量样本的判断与实际风险一致。
参考文献
Zhang, X., Ding, Y., & Ao, X. (2026). Follow the TRACE: Exploiting post-click trajectories for online delayed conversion rate prediction. arXiv preprint arXiv:2604.23197. https://doi.org/10.48550/arXiv.2604.23197