LLM：FN分层分析与提升空间测算（5）

本文为FN分层分析与模型提升空间测算系列第五篇，基于前序两阶段LLM自反思定性编码的方法框架，针对存量二分类模型的假阴（False Negative, FN）样本，形成可落地的分层分析、可修复性判断、提升空间量化的全流程方法。方法核心逻辑参考Dunivin 等人2025年发表的两阶段LLM自反思定性编码研究，将针对假阳性优化的分层思路，延伸至FN样本的模型优化场景。

核心逻辑框架

存量二分类模型的优化核心，集中于FN样本的召回能力提升。传统FN分析依赖人工全量样本研判，存在效率低、优化目标无量化支撑的问题。本方法通过阈值梯度完成FN难度分层，结合业务场景与漏判特征完成多维度划分，再通过LLM辅助完成可修复性初筛与人工核验，最终分层量化模型提升空间，为模型迭代提供可验证的数据支撑。

全流程实操步骤

步骤1：多维度分层与分层随机抽样

FN样本难度分层通过模型输出的假阳性率阈值梯度完成。选取头部1%、5%、10%等梯度的假阳性率阈值，对应阈值下模型额外召回的样本，即为前序阈值下的FN漏判样本。阈值梯度跨度越小，对应FN样本的优化难度越低，以此将FN样本划分为易、中、难三个层级。

在难度分层基础上，叠加业务场景与漏判特征两个维度，完成多维度矩阵划分。业务场景维度按模型覆盖的核心业务类型拆分，漏判特征维度按规则依赖过严、关键信息零散、模型判定逻辑过窄三类核心类型拆分。

在每个细分分层内执行随机抽样，单分层抽样量3-4个，总样本量控制在100-200个。抽样方式保障各分层FN核心特征的覆盖，降低抽样偏差。

步骤2：可修复性判断与人机协同核验

将抽样样本输入LLM，设定固定判断规则完成可修复性初筛，规则分为两类：

可修复：基于现有原始数据，通过规则优化、模型阈值调整、基础特征工程即可完成召回，无需复杂开发或跨部门外部数据申请，人力与时间成本可控。
不可修复：样本核心数据完全缺失，或优化动作需长期跨部门资源协调，投入成本与收益不匹配。

初筛完成后，执行人工核验，核验内容仅覆盖LLM判断与业务规则的一致性、优化动作的可落地性，无需全量样本细节研判。该环节用于修正LLM对可修复性的高估偏差，最终输出各细分分层的FN样本可修复率。

步骤3：分层量化模型提升空间

采用分层测算方式完成提升空间计算，核心公式为：

某分层FN可提升样本量 = 该分层FN样本总量 × 该分层可修复率

总可提升样本量为各分层可提升样本量之和，结合模型当前总样本量与召回率，可换算为优化后模型可实现的召回率区间。分层测算可明确不同分层对模型召回提升的贡献度，为模型目标设定提供可拆解的数据支撑。

步骤4：模型迭代优先级排序

基于分层测算结果，按优化成本与收益比完成迭代动作排序。低难度、高可修复率的优化动作纳入短期执行计划，中难度、部分可修复的优化动作纳入中期执行计划，高难度、需额外资源的优化动作纳入长期规划，不可修复样本暂不投入优化资源。

落地优化要点

样本量控制：总抽样样本量无需过大，100-200个样本即可覆盖各分层核心特征，过量抽样会增加非必要的分析成本。
人工核验边界：人工核验仅聚焦业务逻辑一致性，不陷入单样本细节研判，保障分析效率的同时，控制核心判断偏差。
模型天花板动态调整：模型可实现的召回上限非固定值，随可获取的外部数据、业务规则调整发生变化，需同步更新对应分层的可修复率与提升空间测算结果。
不可修复样本处理：对不可修复的FN样本，需明确标注核心限制因素，同步补充对应资源投入后的预期收益测算，为后续资源申请提供数据支撑。

参考文献

Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.