LLM：FN分层分析与提升空间测算（2）

在LLM定性编码等场景中，第一阶段模型（通常按严标准执行，优先保准确）完成后，二阶段的核心诉求是解决假阴样本（FN）、挖掘切实可行的提升空间。这类FN多为特征不显性、语境隐含的难样本，需要一个成熟的定量测算方法，若仅靠定性分析逐一挖掘拍脑袋的特征方向，不仅效率低，还容易出现方向偏差，导致优化动作无明确增益；而盲目全量解决、追求100%天花板测算又不切实际。本文最初撰写于2024年9月，后参考2025年4月2日发表的《Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation》论文，结合其两阶段核心思路对内容进行了更新优化，二者方法论逻辑相通，论文聚焦两阶段自反思解决假阳性问题，本文则针对性延伸至二阶段FN解决场景，给出一套分层抽样+LLM难样本分析的低成本定量方案，既能准确定位FN的可识别空间与核心特征，又能快速算出提升幅度，为二阶段优化提供明确方向，规避单纯定性分析的偏差。

一、核心问题：摒弃完美测算，聚焦二阶段难样本解决

第一阶段模型按严标注逻辑落地后，产出的FN并非随机的，而是集中难样本，如验证失败信息、无设备冲突的盗号案件。过去测算这类FN提升空间时，常陷入复杂困境，耗费大量精力构建多维度特征体系，反复分析数据，最终仅能凭经验给出2pp的增益结论，且因缺乏可验证的规则依据，极易被质疑为何是2pp而非3pp。

后来意识到，二阶段测算的核心不是追求全量准确，而是针对这些难样本找到可落地的做功空间。与其纠结完美测算，不如转变思路：用小样本的可召回比例，推算难样本整体提升空间。这种方法既贴合二阶段啃难样本的核心任务，又能规避过度精确带来的论证困境，简单直接且可验证。

二、3步测算（适配二阶段FN解决）

这套方法全程耗时不超过数小时，核心是分层控偏误、LLM筛可修复性、快速定增量，准确对接二阶段难样本分析需求，具体分3步：

1. 分层随机抽样本，锚定难样本类型

第一阶段产出的FN，核心来源是难样本及不同业务场景（如Apache邮件标注中的“导师参与”“政策合规”标签场景）。直接随机抽10个易偏航，需先按“难样本类型+业务场景”双维度分层——难样本类型按关键词依赖过严、信息零散、定义理解过窄划分，业务场景按核心业务线或高频标注场景拆分，每个分层抽3-4个样本，凑够10个。这样抽选的样本能准确代表二阶段FN的核心构成，比纯随机抽样更贴合解决需求。

2. LLM初筛“可修复性”，绑定二阶段规则标准

将抽样样本丢给LLM（扮演二阶段批判者角色），无需传授复杂逻辑，仅围绕现有数据、二阶段可落地手段，设定两个可修复性标准，同时结合人工提炼的难样本类型做规则校验，确保判断贴合实操：

能修：基于现有原始数据（raw data），通过优化Prompt（如补充等效表述规则、信息整合逻辑）、调整标签判定边界、微调模型阈值即可召回，无需复杂开发或跨部门外求资源，人力与时间成本可控。这类样本对应二阶段核心做功空间，且能直接复用两阶段工作流中的规则化审核逻辑。
不能修：核心数据完全缺失、需跨部门长期申请资源，或超出标签定义边界的样本（非真FN），属于二阶段需放弃的疑难杂症。

无需纠结LLM是否偶判错，人工仅复核判断逻辑即可，重点是快速锁定可修复比例——比如10个样本中4个能修，即按40%可修复率测算，效率远高于人工逐一审阅难样本。

3. 算具体值：锁定二阶段提升空间

沿用简易公式，结合第一阶段指标推算二阶段增量，明确做功目标：提升空间=第一阶段FN总量×可修复率。举例来说，若第一阶段产出800个FN，按40%可修复率计算，预计可召回320个样本；假设总样本量10000个，第一阶段召回率82%（准确度偏高、召回率偏低），优化后召回率≈(8200+320)/10000=85.2%，即二阶段投入人力优化难样本，可实现约3pp的召回率提升，且明确这部分增量来自难样本修复，便于制定针对性执行计划。

三、落地建议：二阶段抓重点，按优先级推进

二阶段解决FN的核心是高效落地，无需追求全量验证或过细标准，重点按以下原则推进：

优先攻克低成本可修复样本：抽样中若有容易召回样本，优先纳入短期计划，这类样本无需改动模型参数、调整样本权重或者简单特征开发，贴合两阶段无微调、靠规则优化的低成本逻辑。
按难样本类型分优先级：将可修复样本按类型分层，特征工程调整、特征新开发等优化解决；需跨部门调取少量内部数据的（如补充文本上下文），纳入长期计划。
不纠结100% 准确度：哪怕实际提升比测算少1pp，也比反复测算却不敢动手更有价值，也证明这件事情天花板到了。这套方法的核心是为二阶段快速定方向、划边界，让团队明确该啃哪些难样本、能拿到多少增量，而非追求绝对精确。

结语

第一阶段模型定准确基调后，二阶段FN解决切忌复杂化。分层抽样+LLM难样本分析的方案，以低成本获取可用结论，既衔接了两阶段工作流的核心逻辑（LLM规则化审核、人在回路定标准），又准确聚焦难样本的可修复性，不用投入大量人力构建特征，就能快速锁定提升空间。对实际工作而言，这种贴合二阶段任务、可落地的简易方法，远比完美却难落地的测算更有价值。

参考文献

Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.