1 min read

LLM:二阶段FN分层分析与模型提升空间测算

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在模型召回优化中,“假阴样本(FN)的提升空间” 一直是个实操难题 —— 按全部解决, 100% 天花板算不切实际,直接做新特征再去评估费事费力,也不是定规划时,正确的做事逻辑。最近在实践中摸索出一套低成本方法,核心是 “分层抽样 + 大模型案例分析”,不用抠细节、能快速算出 “到底能提升多少”,用于搞模型规划。

一、破题:摒弃 “完美测算”,追求实用结果

过去在测算假阴提升空间时,常陷入复杂的困境。耗费大量精力构建多维度特征体系,反复分析数据,最终却只能凭借经验人工给出 2pp 的增益结论。但这种方式极易被质疑 —— 为何是 2pp 而非 3pp?面对这类追问,由于缺乏紧密相连可验证的科学依据,很难给出令人信服的回答。后来我们意识到,与其追求看似精确却难以落地的 “完美测算”,不如转变思路:我们真正需要的不是大样本的测算,而是 “能支撑‘的可靠参考。因此,将核心逻辑调整为 “用小样本的可召回比例,推算整体提升空间”,这种方法既简单直接,又能有效规避因过度追求精确而带来的论证困境。

二、3 步测算核心方法

这套方法全程不用超过若干小时,重点是 “分层抽样控偏误,大模型省人力”,具体就 3 步:

  1. 分层随机抽样本,别瞎抽

    假阴样本可能来自不同场景(比如 A 业务线漏判、B 场景关键特征缺失),直接随机抽 10 个容易偏。我会先按 “业务场景” 或 “假阴初步表现(缺字段 / 全字段漏判)” 分层,比如你们最常出 FN 的 3 个场景,每个场景抽 3-4 个,凑够 10 个样本 —— 这样抽出来的样本,能代表整体 FN 的构成,比纯随机准得多。

  2. 大模型初筛 “可修复性”,定两个标准

把样本丢给大模型,不用教复杂逻辑,就给两个判断标准:

  • 能修:大模型分析后,若提示可基于现有 raw data(原始数据)识别相关特征,无需复杂开发或权限申请,或者能用现有数据改模型(调特征 / 阈值),亦或是可申请内部可获取的新数据(比如跨部门调数据,不是找外部合作),且人力 / 时间成本可控。这部分基于原始数据即可操作的内容,就是能做功的空间;

  • 不能修:数据完全缺失、或要花半年申请资源的 “疑难杂症”。

不用纠结 “大模型会不会判错”,人工 review 逻辑就好,重点是快速筛出比例 —— 比如 10 个样本里 4 个能修,就按 40% 的可修复率算,效率比人工大量做案例分析,且开发特征耗时耗力直接多了。

  1. 算具体值:提升空间 = 假阴总量 × 可修复率

不用复杂公式,直接套用:若现有 800 个假阴样本,按 40% 修复率计算,预计可提升召回数约为 800×40%=320 个。假设总样本量 10000 个,当前召回率 82%,优化后召回率≈(8200 + 320)/10000 = 85.2%。这表明投入人力优化可使召回率提升约 3 个百分点,即为明年的优化空间。同时,该计算明确了目标指标与实现路径的关系,便于执行人员执行工作。

三、落地建议:抓大放小,明确方向即可

聊的时候有人问 “要不要全量验证”“要不要定更细的标准”,我的建议是:不用。

  • 容易修的先试:抽样里如果有 “改个小特征就能召回” 的样本,顺手调一下 —— 不用真的试,判断一下执行复杂度即可;

  • 资源分优先级:算出来的 “可修复样本” 里,标清楚 “不用新数据的(当下能做)” 和 “要申请数据的(长期做)”,不用混在一起算,方便排期;

  • 别追求 100% 准:哪怕最后实际提升比测算少 1 个点,也比 “算半天不敢动手” 强 —— 这套方法的核心是 “快速给方向”,不是 “精确算结果”。

四、最后总结:干活人的测算逻辑

搞模型规划切忌复杂化。“分层抽样 + 大模型” 的假阴测算方案,以低成本获取可用结论,无需学术严谨性与大量人力投入,助力快速确定功空间。毕竟,对实际工作而言,可落地的简易方法比完美却不可行的假设更具价值。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03