1 min read

LLM:FN分层分析与提升空间测算(2)

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(3) 2024-09-12
7 LLM:FN分层分析与提升空间测算(4) 2024-09-12
8 LLM:FN分层分析与提升空间测算(5) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

在LLM定性编码等场景中,第一阶段模型(通常按严标准执行,优先保准确)完成后,二阶段的核心诉求是解决假阴样本(FN)、挖掘切实可行的提升空间。这类FN多为特征不显性、语境隐含的难样本,需要一个成熟的定量测算方法,若仅靠定性分析逐一挖掘拍脑袋的特征方向,不仅效率低,还容易出现方向偏差,导致优化动作无明确增益;而盲目全量解决、追求100%天花板测算又不切实际。本文最初撰写于2024年9月,后参考2025年4月2日发表的《Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation》论文,结合其两阶段核心思路对内容进行了更新优化,二者方法论逻辑相通,论文聚焦两阶段自反思解决假阳性问题,本文则针对性延伸至二阶段FN解决场景,给出一套分层抽样+LLM难样本分析的低成本定量方案,既能准确定位FN的可识别空间与核心特征,又能快速算出提升幅度,为二阶段优化提供明确方向,规避单纯定性分析的偏差。

一、核心问题:摒弃完美测算,聚焦二阶段难样本解决

第一阶段模型按严标注逻辑落地后,产出的FN并非随机的,而是集中难样本,如验证失败信息、无设备冲突的盗号案件。过去测算这类FN提升空间时,常陷入复杂困境,耗费大量精力构建多维度特征体系,反复分析数据,最终仅能凭经验给出2pp的增益结论,且因缺乏可验证的规则依据,极易被质疑为何是2pp而非3pp。

后来意识到,二阶段测算的核心不是追求全量准确,而是针对这些难样本找到可落地的做功空间。与其纠结完美测算,不如转变思路:用小样本的可召回比例,推算难样本整体提升空间。这种方法既贴合二阶段啃难样本的核心任务,又能规避过度精确带来的论证困境,简单直接且可验证。

二、3步测算(适配二阶段FN解决)

这套方法全程耗时不超过数小时,核心是分层控偏误、LLM筛可修复性、快速定增量,准确对接二阶段难样本分析需求,具体分3步:

1. 分层随机抽样本,锚定难样本类型

第一阶段产出的FN,核心来源是难样本及不同业务场景(如Apache邮件标注中的“导师参与”“政策合规”标签场景)。直接随机抽10个易偏航,需先按“难样本类型+业务场景”双维度分层——难样本类型按关键词依赖过严、信息零散、定义理解过窄划分,业务场景按核心业务线或高频标注场景拆分,每个分层抽3-4个样本,凑够10个。这样抽选的样本能准确代表二阶段FN的核心构成,比纯随机抽样更贴合解决需求。

2. LLM初筛“可修复性”,绑定二阶段规则标准

将抽样样本丢给LLM(扮演二阶段批判者角色),无需传授复杂逻辑,仅围绕现有数据、二阶段可落地手段,设定两个可修复性标准,同时结合人工提炼的难样本类型做规则校验,确保判断贴合实操:

  • 能修:基于现有原始数据(raw data),通过优化Prompt(如补充等效表述规则、信息整合逻辑)、调整标签判定边界、微调模型阈值即可召回,无需复杂开发或跨部门外求资源,人力与时间成本可控。这类样本对应二阶段核心做功空间,且能直接复用两阶段工作流中的规则化审核逻辑。

  • 不能修:核心数据完全缺失、需跨部门长期申请资源,或超出标签定义边界的样本(非真FN),属于二阶段需放弃的疑难杂症。

无需纠结LLM是否偶判错,人工仅复核判断逻辑即可,重点是快速锁定可修复比例——比如10个样本中4个能修,即按40%可修复率测算,效率远高于人工逐一审阅难样本。

3. 算具体值:锁定二阶段提升空间

沿用简易公式,结合第一阶段指标推算二阶段增量,明确做功目标:提升空间=第一阶段FN总量×可修复率。举例来说,若第一阶段产出800个FN,按40%可修复率计算,预计可召回320个样本;假设总样本量10000个,第一阶段召回率82%(准确度偏高、召回率偏低),优化后召回率≈(8200+320)/10000=85.2%,即二阶段投入人力优化难样本,可实现约3pp的召回率提升,且明确这部分增量来自难样本修复,便于制定针对性执行计划。

三、落地建议:二阶段抓重点,按优先级推进

二阶段解决FN的核心是高效落地,无需追求全量验证或过细标准,重点按以下原则推进:

  • 优先攻克低成本可修复样本:抽样中若有容易召回样本,优先纳入短期计划,这类样本无需改动模型参数、调整样本权重或者简单特征开发,贴合两阶段无微调、靠规则优化的低成本逻辑。

  • 按难样本类型分优先级:将可修复样本按类型分层,特征工程调整、特征新开发等优化解决;需跨部门调取少量内部数据的(如补充文本上下文),纳入长期计划。

  • 不纠结100% 准确 :哪怕实际提升比测算少1pp,也比反复测算却不敢动手更有价值,也证明这件事情天花板到了。这套方法的核心是为二阶段快速定方向、划边界,让团队明确该啃哪些难样本、能拿到多少增量,而非追求绝对精确。

结语

第一阶段模型定准确基调后,二阶段FN解决切忌复杂化。分层抽样+LLM难样本分析的方案,以低成本获取可用结论,既衔接了两阶段工作流的核心逻辑(LLM规则化审核、人在回路定标准),又准确聚焦难样本的可修复性,不用投入大量人力构建特征,就能快速锁定提升空间。对实际工作而言,这种贴合二阶段任务、可落地的简易方法,远比完美却难落地的测算更有价值。

参考文献

Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(3) 2024-09-12
7 LLM:FN分层分析与提升空间测算(4) 2024-09-12
8 LLM:FN分层分析与提升空间测算(5) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03