在LLM定性编码等场景中,第一阶段模型(通常按严标准执行,优先保准确)完成后,二阶段的核心诉求是解决假阴样本(FN)、挖掘切实可行的提升空间。这类FN多为特征不显性、语境隐含的难样本,需要一个成熟的定量测算方法,若仅靠定性分析逐一挖掘拍脑袋的特征方向,不仅效率低,还容易出现方向偏差,导致优化动作无明确增益;而盲目全量解决、追求100%天花板测算又不切实际。本文最初撰写于2024年9月,后参考2025年4月2日发表的《Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation》论文,结合其两阶段核心思路对内容进行了更新优化,二者方法论逻辑相通,论文聚焦两阶段自反思解决假阳性问题,本文则针对性延伸至二阶段FN解决场景,给出一套分层抽样+LLM难样本分析的低成本定量方案,既能准确定位FN的可识别空间与核心特征,又能快速算出提升幅度,为二阶段优化提供明确方向,规避单纯定性分析的偏差。
一、核心问题:摒弃完美测算,聚焦二阶段难样本解决
第一阶段模型按严标注逻辑落地后,产出的FN并非随机的,而是集中难样本,如验证失败信息、无设备冲突的盗号案件。过去测算这类FN提升空间时,常陷入复杂困境,耗费大量精力构建多维度特征体系,反复分析数据,最终仅能凭经验给出2pp的增益结论,且因缺乏可验证的规则依据,极易被质疑为何是2pp而非3pp。
后来意识到,二阶段测算的核心不是追求全量准确,而是针对这些难样本找到可落地的做功空间。与其纠结完美测算,不如转变思路:用小样本的可召回比例,推算难样本整体提升空间。这种方法既贴合二阶段啃难样本的核心任务,又能规避过度精确带来的论证困境,简单直接且可验证。
二、3步测算(适配二阶段FN解决)
这套方法全程耗时不超过数小时,核心是分层控偏误、LLM筛可修复性、快速定增量,准确对接二阶段难样本分析需求,具体分3步:
1. 分层随机抽样本,锚定难样本类型
第一阶段产出的FN,核心来源是难样本及不同业务场景(如Apache邮件标注中的“导师参与”“政策合规”标签场景)。直接随机抽10个易偏航,需先按“难样本类型+业务场景”双维度分层——难样本类型按关键词依赖过严、信息零散、定义理解过窄划分,业务场景按核心业务线或高频标注场景拆分,每个分层抽3-4个样本,凑够10个。这样抽选的样本能准确代表二阶段FN的核心构成,比纯随机抽样更贴合解决需求。
2. LLM初筛“可修复性”,绑定二阶段规则标准
将抽样样本丢给LLM(扮演二阶段批判者角色),无需传授复杂逻辑,仅围绕现有数据、二阶段可落地手段,设定两个可修复性标准,同时结合人工提炼的难样本类型做规则校验,确保判断贴合实操:
能修:基于现有原始数据(raw data),通过优化Prompt(如补充等效表述规则、信息整合逻辑)、调整标签判定边界、微调模型阈值即可召回,无需复杂开发或跨部门外求资源,人力与时间成本可控。这类样本对应二阶段核心做功空间,且能直接复用两阶段工作流中的规则化审核逻辑。
不能修:核心数据完全缺失、需跨部门长期申请资源,或超出标签定义边界的样本(非真FN),属于二阶段需放弃的疑难杂症。
无需纠结LLM是否偶判错,人工仅复核判断逻辑即可,重点是快速锁定可修复比例——比如10个样本中4个能修,即按40%可修复率测算,效率远高于人工逐一审阅难样本。
3. 算具体值:锁定二阶段提升空间
沿用简易公式,结合第一阶段指标推算二阶段增量,明确做功目标:提升空间=第一阶段FN总量×可修复率。举例来说,若第一阶段产出800个FN,按40%可修复率计算,预计可召回320个样本;假设总样本量10000个,第一阶段召回率82%(准确度偏高、召回率偏低),优化后召回率≈(8200+320)/10000=85.2%,即二阶段投入人力优化难样本,可实现约3pp的召回率提升,且明确这部分增量来自难样本修复,便于制定针对性执行计划。
三、落地建议:二阶段抓重点,按优先级推进
二阶段解决FN的核心是高效落地,无需追求全量验证或过细标准,重点按以下原则推进:
优先攻克低成本可修复样本:抽样中若有容易召回样本,优先纳入短期计划,这类样本无需改动模型参数、调整样本权重或者简单特征开发,贴合两阶段无微调、靠规则优化的低成本逻辑。
按难样本类型分优先级:将可修复样本按类型分层,特征工程调整、特征新开发等优化解决;需跨部门调取少量内部数据的(如补充文本上下文),纳入长期计划。
不纠结100% 准确 度:哪怕实际提升比测算少1pp,也比反复测算却不敢动手更有价值,也证明这件事情天花板到了。这套方法的核心是为二阶段快速定方向、划边界,让团队明确该啃哪些难样本、能拿到多少增量,而非追求绝对精确。
结语
第一阶段模型定准确基调后,二阶段FN解决切忌复杂化。分层抽样+LLM难样本分析的方案,以低成本获取可用结论,既衔接了两阶段工作流的核心逻辑(LLM规则化审核、人在回路定标准),又准确聚焦难样本的可修复性,不用投入大量人力构建特征,就能快速锁定提升空间。对实际工作而言,这种贴合二阶段任务、可落地的简易方法,远比完美却难落地的测算更有价值。
参考文献
Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.