支撑拦截的模型指标看似合理,实则存在潜在问题:当模型召回率约 80%,但准确率仅 10% 时,这样的结果是否合理?可从两方面分析:其一,若模型打扰率过高,可能是为追求高召回过度拦截,致使大量正常操作被误判;其二,目标事件在整体业务量中占比极低,这种数据不平衡性使得模型准确率提升困难。
从业务层面来看,即便模型拦截大量操作,其中九成仍属误判,这种 “高召回、低准确” 的矛盾,引发对模型有效性的深度质疑。
此外,模型 Lift(提升度,衡量对高风险对象的识别能力)约 80+,线上打扰占比仅 1%(即每 100 个对象里拦截 1 个,对正常对象影响较小),但对应的误判率却高达 10%+,这成为后续争议焦点:在打扰率较低的情况下,为何误判率依旧居高不下?模型准确率是否存在根本缺陷?
争议焦点:对 “准确率” 的理解偏差
这一矛盾源于对模型核心指标关系的认知误差。通过三个关键公式,可梳理 “Lift、打扰占比、召回率、准确率、大盘浓度” 的内在联系:
根据公式:\(LIFT = \frac{准确率}{大盘浓度} = \frac{召回率}{打扰率}\),进一步拆解分析:
- :此公式体现模型识别能力与实际拦截效果的关系。Lift 代表模型对高风险对象的识别能力倍数,打扰占比是实际拦截的对象比例,二者相乘得出风险召回率。当前 Lift 约 80,打扰占比 1%,理论召回率为 80×1% = 80%,与实际 32% 的差异由模型复杂度及数据波动导致。
- :准确率指模型判断正确的比例,大盘浓度是全量对象中的风险占比。以 0.1% 的大盘浓度、80 的 Lift 为例,可反推准确率为 0.1%×80 = 8%,接近实际表现。
- 当 Lift 稳定,浓度太低,准确率不会高:在 Lift 难以大幅提升时,极低的大盘浓度会限制准确率上限。即便 Lift 达到行业极限 100,0.1% 的大盘浓度也仅能支撑 10% 的准确率,解释了 “高 Lift” 无法带来 “高准确率” 的原因。
因此,召回率和准确率的关系,受打扰占比和大盘浓度影响:召回率取决于模型识别能力(Lift)与实际拦截规模(打扰占比)的乘积,若想提升召回率,在 Lift 受限的情况下,需适度放宽拦截策略以增加打扰占比;而准确率与大盘浓度紧密相关,当风险对象在全量对象中占比极低时,即便模型识别能力强(高 Lift),准确率也难以突破。二者存在天然矛盾 —— 扩大打扰占比可提升召回,但会降低准确率;控制打扰占比以维持准确率,又会牺牲召回效率。
现实问题是:“将准确率提至 30%-40% 是否可行?”
答案是否定的。经公式推算,要达到 30%-40% 的准确率,要么将 Lift 提升 4 倍(从 80 + 提至 300+),要么在保持 Lift 80 + 的情况下,将打扰占比降至 0.2%。但召回率存在上限,无法将 32% 的召回率提升至 400%,该目标脱离了 “低浓度风险” 的实际情况。
破局思路:寻求 “业务平衡点” 而非单一指标最优
鉴于 “高准确率” 在低浓度场景下难以实现,需转变优化思路。复盘提出的三个方向具有参考价值:大盘浓度 0.1%(10BP)难以支撑高准确率,但 “局部场景” 存在机会。如细分场景中,对象风险特征更显著,浓度可能达到 30-40BP(0.3%-0.4%)。后续可重点核查这些场景浓度,若能稳定在此水平,将为准确率提升奠定基础。
写在最后
长期模型工作实践表明,优秀的模型并非追求指标最优,而是契合业务实际。拦截的核心在于在 “风险、体验、规模” 间找到动态平衡,而非追求 “100% 准确率”。