1 min read

LLM:FN分层分析与提升空间测算(3)

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(4) 2024-09-12
8 LLM:FN分层分析与提升空间测算(5) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

前两篇围绕二阶段FN提升空间测算,明确了分层抽样+LLM的低成本定量方案,解决了能提升多少的核心问题。而在实际模型迭代中,测算出提升空间后,更关键的是明确该开发哪些特征特征要做到什么细致程度。本文基于分类模型FN优化实践,衔接前两阶段方法论,提出通过特征分层+打扰率梯度提升构建FN难度体系,实现特征开发颗粒度与难度层级的准确适配,为模型迭代提供可落地的特征方向,填补从知增量到做落地的衔接空白。

本文思路同样参考Dunivin等人(2025)提出的两阶段自反思核心逻辑,在前文聚焦FN可修复性测算的基础上,进一步延伸至特征工程落地环节,将LLM辅助分析的场景从筛可修复样本拓展到定特征颗粒度,让两阶段方法论既覆盖定量测算,又支撑定性特征开发。

一、核心逻辑:从增量测算到难度分层,锚定特征开发方向

分类模型召回率无法达到满分,必然产生FN样本。这些FN并非单一维度的难样本,其可召回难度随打扰率调整呈现明显差异。若仅笼统开展特征开发,易出现开发的特征不解决核心难点颗粒度过粗无法覆盖高难度FN等问题。

核心解决思路是建立特征分层-打扰率梯度-难度层级的分析框架:通过互斥特征分层划分FN样本类型,以逐步提升打扰率的方式捕捉不同难度的FN,再根据难度差异匹配对应颗粒度的特征开发,让每一项特征开发都准确对接具体难度的FN,避免无的放矢。这种机制既承接了前两阶段不追求完美、聚焦实操的核心逻辑,又让特征开发有了明确的优先级和细致度标准。

二、三步构建FN难度体系,适配特征颗粒度

整套流程以现有分类模型FN为基础,无需额外搭建复杂框架,核心是通过梯度调整与分层归类,梳理出难度层级与特征需求,具体分三步推进:

1. 构建互斥特征分层,覆盖FN核心类型

先对现有FN样本进行特征拆解,搭建三个互斥的特征分层,全面覆盖FN的核心差异点,为后续难度归类提供基础维度。

三个分层互斥且无遗漏,既能避免样本重复归类导致的难度判断偏差,又能准确定位每类FN的核心特征场景,后续可针对不同分层单独开展特征开发,提升迭代针对性。

2. 梯度提升打扰率,捕捉不同难度FN

以当前模型打扰率为基准,按每次2pp的幅度逐步提升,每次提升后记录新增召回的FN样本——这类样本在低打扰率下无法被模型捕捉,其特征隐蔽性、复杂性高于上一轮FN,难度呈递增趋势。

将每次新增的FN样本,分别归入上述三个特征分层中。随着打扰率持续提升,各分层会不断纳入新的高难度FN,最终自然形成易-中-难三级难度体系:低打扰率下召回的FN为易层级,特征显性、易捕捉;中等打扰率新增FN为中层级,特征需结合少量上下文或多维度交叉判断;高打扰率新增FN为难层级,特征高度隐蔽,需细拆维度才能识别。

3. 匹配特征颗粒度,明确开发优先级

不同难度层级的FN,对应不同颗粒度的特征开发需求,结合分层场景明确开发方向与优先级:

易层级FN(低打扰率召回):特征颗粒度可保持粗放,无需过度细拆,或调整现有特征阈值,低成本实现召回。

中层级FN(中等打扰率召回):需适度细化特征颗粒度。

难层级FN(高打扰率召回):需极致细拆特征颗粒度,构建多维度特征组合。

同时,按易-中-难优先级推进开发,先快速落地易层级特征优化,快速获取增量;再逐步攻克中、难层级,平衡迭代效率与召回提升效果。

三、落地要点:规避误区,聚焦实操价值

  1. 不追求打扰率无上限提升:打扰率提升需兼顾用户体验与模型效率,当新增FN均为难层级且开发成本过高时,可停止提升,明确该阶段模型召回天花板,避免资源浪费。

  2. 特征分层与难度层级动态调整:业务场景变化可能导致FN特征迁移,需定期复核特征分层合理性,调整打扰率梯度幅度,确保难度体系与实际业务适配。

  3. 借助LLM辅助特征细拆:针对难层级FN,可将样本与分层信息输入LLM,辅助拆解潜在细分特征维度,减少人工分析成本,同时保证特征拆解的全面性,贴合两阶段LLM辅助的核心逻辑。

结语

从FN提升空间测算到难度分层与特征颗粒度适配,本质是将模糊的迭代方向转化为准确的落地动作。前两阶段方法论解决了能提升多少的定量问题,本文则聚焦该怎么提升的定性落地,通过特征分层、打扰率梯度调整构建难度体系,让特征开发不再盲目。

这套思路始终延续低成本、重实操的核心,无需构建复杂模型框架,仅通过现有数据与梯度调整,就能实现特征开发与FN难度的准确匹配。对实际工作而言,这种定量测算+定性落地的闭环,远比追求完美模型更能高效推动召回率提升。

参考文献

Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(4) 2024-09-12
8 LLM:FN分层分析与提升空间测算(5) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03