本文为FN分层分析与模型提升空间测算系列第五篇,基于前序两阶段LLM自反思定性编码的方法框架,针对存量二分类模型的假阴(False Negative, FN)样本,形成可落地的分层分析、可修复性判断、提升空间量化的全流程方法。方法核心逻辑参考Dunivin 等人2025年发表的两阶段LLM自反思定性编码研究,将针对假阳性优化的分层思路,延伸至FN样本的模型优化场景。
核心逻辑框架
存量二分类模型的优化核心,集中于FN样本的召回能力提升。传统FN分析依赖人工全量样本研判,存在效率低、优化目标无量化支撑的问题。本方法通过阈值梯度完成FN难度分层,结合业务场景与漏判特征完成多维度划分,再通过LLM辅助完成可修复性初筛与人工核验,最终分层量化模型提升空间,为模型迭代提供可验证的数据支撑。
全流程实操步骤
步骤1:多维度分层与分层随机抽样
FN样本难度分层通过模型输出的假阳性率阈值梯度完成。选取头部1%、5%、10%等梯度的假阳性率阈值,对应阈值下模型额外召回的样本,即为前序阈值下的FN漏判样本。阈值梯度跨度越小,对应FN样本的优化难度越低,以此将FN样本划分为易、中、难三个层级。
在难度分层基础上,叠加业务场景与漏判特征两个维度,完成多维度矩阵划分。业务场景维度按模型覆盖的核心业务类型拆分,漏判特征维度按规则依赖过严、关键信息零散、模型判定逻辑过窄三类核心类型拆分。
在每个细分分层内执行随机抽样,单分层抽样量3-4个,总样本量控制在100-200个。抽样方式保障各分层FN核心特征的覆盖,降低抽样偏差。
步骤2:可修复性判断与人机协同核验
将抽样样本输入LLM,设定固定判断规则完成可修复性初筛,规则分为两类:
可修复:基于现有原始数据,通过规则优化、模型阈值调整、基础特征工程即可完成召回,无需复杂开发或跨部门外部数据申请,人力与时间成本可控。
不可修复:样本核心数据完全缺失,或优化动作需长期跨部门资源协调,投入成本与收益不匹配。
初筛完成后,执行人工核验,核验内容仅覆盖LLM判断与业务规则的一致性、优化动作的可落地性,无需全量样本细节研判。该环节用于修正LLM对可修复性的高估偏差,最终输出各细分分层的FN样本可修复率。
步骤3:分层量化模型提升空间
采用分层测算方式完成提升空间计算,核心公式为:
某分层FN可提升样本量 = 该分层FN样本总量 × 该分层可修复率
总可提升样本量为各分层可提升样本量之和,结合模型当前总样本量与召回率,可换算为优化后模型可实现的召回率区间。分层测算可明确不同分层对模型召回提升的贡献度,为模型目标设定提供可拆解的数据支撑。
步骤4:模型迭代优先级排序
基于分层测算结果,按优化成本与收益比完成迭代动作排序。低难度、高可修复率的优化动作纳入短期执行计划,中难度、部分可修复的优化动作纳入中期执行计划,高难度、需额外资源的优化动作纳入长期规划,不可修复样本暂不投入优化资源。
落地优化要点
样本量控制:总抽样样本量无需过大,100-200个样本即可覆盖各分层核心特征,过量抽样会增加非必要的分析成本。
人工核验边界:人工核验仅聚焦业务逻辑一致性,不陷入单样本细节研判,保障分析效率的同时,控制核心判断偏差。
模型天花板动态调整:模型可实现的召回上限非固定值,随可获取的外部数据、业务规则调整发生变化,需同步更新对应分层的可修复率与提升空间测算结果。
不可修复样本处理:对不可修复的FN样本,需明确标注核心限制因素,同步补充对应资源投入后的预期收益测算,为后续资源申请提供数据支撑。
参考文献
Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.