LLM：FN分层分析与提升空间测算（1）

在模型召回优化中，“假阴样本（FN）的提升空间” 一直是个实操难题 —— 按全部解决， 100% 天花板算不切实际，直接做新特征再去评估费事费力，也不是定规划时，正确的做事逻辑。最近在实践中摸索出一套低成本方法，核心是 “分层抽样 + 大模型案例分析”，不用抠细节、能快速算出 “到底能提升多少”，用于搞模型规划。

一、破题：摒弃 “完美测算”，追求实用结果

过去在测算假阴提升空间时，常陷入复杂的困境。耗费大量精力构建多维度特征体系，反复分析数据，最终却只能凭借经验人工给出 2pp 的增益结论。但这种方式极易被质疑 —— 为何是 2pp 而非 3pp？面对这类追问，由于缺乏紧密相连可验证的科学依据，很难给出令人信服的回答。后来我们意识到，与其追求看似精确却难以落地的 “完美测算”，不如转变思路：我们真正需要的不是大样本的测算，而是 “能支撑‘的可靠参考。因此，将核心逻辑调整为 “用小样本的可召回比例，推算整体提升空间”，这种方法既简单直接，又能有效规避因过度追求精确而带来的论证困境。

二、3 步测算核心方法

这套方法全程不用超过若干小时，重点是 “分层抽样控偏误，大模型省人力”，具体就 3 步：

分层随机抽样本，别瞎抽

假阴样本可能来自不同场景（比如 A 业务线漏判、B 场景关键特征缺失），直接随机抽 10 个容易偏。我会先按 “业务场景” 或 “假阴初步表现（缺字段 / 全字段漏判）” 分层，比如你们最常出 FN 的 3 个场景，每个场景抽 3-4 个，凑够 10 个样本 —— 这样抽出来的样本，能代表整体 FN 的构成，比纯随机准得多。
大模型初筛 “可修复性”，定两个标准

把样本丢给大模型，不用教复杂逻辑，就给两个判断标准：

能修：大模型分析后，若提示可基于现有 raw data（原始数据）识别相关特征，无需复杂开发或权限申请，或者能用现有数据改模型（调特征 / 阈值），亦或是可申请内部可获取的新数据（比如跨部门调数据，不是找外部合作），且人力 / 时间成本可控。这部分基于原始数据即可操作的内容，就是能做功的空间；
不能修：数据完全缺失、或要花半年申请资源的 “疑难杂症”。

不用纠结 “大模型会不会判错”，人工 review 逻辑就好，重点是快速筛出比例 —— 比如 10 个样本里 4 个能修，就按 40% 的可修复率算，效率比人工大量做案例分析，且开发特征耗时耗力直接多了。

算具体值：提升空间 = 假阴总量 × 可修复率

不用复杂公式，直接套用：若现有 800 个假阴样本，按 40% 修复率计算，预计可提升召回数约为 800×40%=320 个。假设总样本量 10000 个，当前召回率 82%，优化后召回率≈(8200 + 320)/10000 = 85.2%。这表明投入人力优化可使召回率提升约 3 个百分点，即为明年的优化空间。同时，该计算明确了目标指标与实现路径的关系，便于执行人员执行工作。

三、落地建议：抓大放小，明确方向即可

聊的时候有人问 “要不要全量验证”“要不要定更细的标准”，我的建议是：不用。

容易修的先试：抽样里如果有 “改个小特征就能召回” 的样本，顺手调一下 —— 不用真的试，判断一下执行复杂度即可；
资源分优先级：算出来的 “可修复样本” 里，标清楚 “不用新数据的（当下能做）” 和 “要申请数据的（长期做）”，不用混在一起算，方便排期；
别追求 100% 准：哪怕最后实际提升比测算少 1 个点，也比 “算半天不敢动手” 强 —— 这套方法的核心是 “快速给方向”，不是 “精确算结果”。

四、最后总结：干活人的测算逻辑