1 min read

LLM：FN分层分析与提升空间测算（4）

2024/09/12

在LLM定性编码的基础上，将FN（假阴样本）分析延伸至案件分析场景后，核心诉求从通用的难样本攻坚，升级为贴合案件业务的分层化、可落地的定量分析。此前围绕FN分层分析与提升空间测算的核心方法，结合案件场景的难度分层讲解思路，我们进一步校准偏差、补齐实操环节，形成难度+特征+可修复性三维度的FN分析方法，既保留原方法“低成本、定量、可落地”的核心，又适配案件分析的业务特性，让模型迭代规划更具针对性，同时规避主观分析带来的方向偏差。

本文作为FN提升空间测算的后续延伸，聚焦案件场景的实操落地，从核心偏差校准、三维度分层逻辑、全流程实操步骤三个维度，讲清案件分析中如何用LLM做好FN的定量分析与落地规划。

一、案件场景下FN的核心逻辑：三维度分层分析

案件分析中的FN多为特征不显性、语境复杂的难样本（如验证失败信息、无设备冲突的盗号案件），其分布兼具难度差异性、特征异质性、业务场景关联性，单一维度的分层无法精准定位问题，因此在原博客“难样本类型+业务场景”分层的基础上，结合案件难度分层思路，形成难度+特征+业务场景的三维度分层逻辑，核心要求是各维度互斥、样本有代表性：

难度维度：按打扰率梯度划分，取头部1%、5%、10%等比例的打扰率阈值，将FN分为易、中、难三个层级——打扰率越低，漏过的FN难度越低，低难度FN可通过简单的特征调整/规则优化召回；打扰率越高，漏过的FN难度越高，需更精细化的分析或外部资源支撑。
特征维度：按FN核心特征类型划分，也是后续LLM可修复性判断的重要依据。
业务场景维度：按案件的核心业务类型划分（如盗号案件、电诈案件、虚假交易案件等），不同业务场景的FN特征与难度分布差异显著，分层时需保证各业务场景的样本均有覆盖。

三维度分层可形成难度×特征×业务场景的多维分析矩阵，替代单一的维度分析，更贴合案件分析的业务复杂性。

二、案件场景下FN分析的全流程

整套方法全程耗时不超过数小时，核心是三维分层控偏、LLM筛可修复性、分层测算提升空间、按ROI排优先级，衔接定量测算逻辑，同时适配案件分析的业务特性，具体步骤如下：

步骤1：三维度分层抽样，锚定案件FN的核心构成

基于上述三维度，对第一阶段模型产出的FN样本做分层随机抽样，而非纯随机抽样：

按“易、中、难”难度各划分1-2个核心业务场景，每个业务场景下再按三类特征分层；
每个细分分层抽取3-4个样本，总样本量控制在10-20个，保证样本能代表各维度FN的核心特征，避免因抽样偏差导致分析结果失真。

步骤2：LLM初筛可修复性，绑定案件实操标准

将抽样样本丢给LLM（扮演二阶段批判者角色），无需复杂的案件分析逻辑，仅围绕案件现有原始数据+低成本落地手段，按“能修/不能修”标准做可修复性判断，同时结合案件的三维度特征做规则校验，确保判断贴合案件实操：

能修：基于现有案件数据（如用户行为、设备信息、交易记录），通过优化Prompt（补充案件等效表述规则、信息整合逻辑）、调整案件判定规则/模型阈值、简单特征工程即可召回，无需复杂开发或跨部门外求资源，人力与时间成本可控；
不能修：案件核心数据完全缺失（如无任何用户行为记录）、需跨部门长期申请资源，或超出案件判定规则边界的样本，属于案件分析中需暂时放弃的疑难杂症。

无需纠结LLM偶发的判断错误，人工仅复核判断逻辑是否贴合案件业务即可，重点是快速锁定各三维度分层的可修复率，效率远高于人工逐一审阅案件FN。

步骤3：分层测算提升空间，拆解模型天花板

结合案件FN的三维度分层，做分层定量测算，对各层分别计算：某层FN提升空间=该层FN总量×该层可修复率。

实操示例：若某案件场景下，易难度FN总量500个，可修复率80%；中难度FN总量300个，可修复率40%；难难度FN总量200个，可修复率10%，则分层提升空间为：

易难度：500×80%=400个；
中难度：300×40%=120个；
难难度：200×10%=20个。

总提升空间=400+120+20=540个，结合当前模型的召回率，可精准拆解各难度层级对模型天花板的贡献，相比主观给出“召回率提升X个点”，这种分层拆解的结论更具说服力，也能让团队明确各层级的攻坚目标。

步骤4：按ROI排优先级，制定案件FN的迭代规划

案件分析的FN优化，核心是在现有人力、数据资源约束下实现ROI最大化，而非追求召回率的绝对最大化，因此基于三维度分层与可修复率测算结果，按“易难度先做、中难度细化、难难度规划”的原则制定迭代计划：

短期计划（1-2周）：优先攻克易难度+高可修复性的案件FN，这类样本仅需调整判定规则或简单特征工程即可召回，能快速看到效果，比如“易难度+关键词依赖过严+盗号案件”的FN，补充等效关键词即可解决；
中期计划（1-2月）：优化中难度+部分可修复性的案件FN，这类样本需做特征细化（如整合零散的案件信息）、微调模型阈值（refit），需投入一定的人力，但能实现稳定的召回率提升；
长期计划（3个月以上）：规划难难度+可修复性的案件FN，这类样本需补充外部数据（如跨部门的用户画像数据）、重构部分判定规则，需提前申请资源，做好落地排期；
放弃项：难难度+不可修复性的案件FN，暂时放弃，避免投入大量人力却无实际增益。

三、案件场景的落地优化建议

将三维度FN分析方法落地到案件分析时，无需追求极致的精细化，核心是抓重点、控成本、可落地，三个优化建议贴合实操：

样本量无需过大：分层抽样的总样本量控制在100-200个即可，案件FN的特征具有较强的代表性，少量样本即可反映各层的核心问题，过多样本会增加分析成本，违背低成本的核心原则；
人工复核聚焦逻辑：对LLM的可修复性判断，人工仅复核是否贴合案件业务规则，无需逐一审阅案件细节，比如LLM判定某盗号案件FN可通过补充关键词召回，人工仅确认该关键词是否符合盗号案件的判定逻辑即可；
天花板测算动态调整：模型天花板并非固定值，可根据资源投入做动态调整——若能申请到外部数据，难难度FN的可修复率会提升，模型天花板也会相应提高，无需一次性定死，保持一定的灵活性。

结语

将LLM应用于案件场景的FN分析，核心价值并非替代人工的案件研判，而是用低成本的定量方法，让FN分析从主观拍脑袋变成数据可支撑，让模型迭代从盲目all in变成按优先级落地。

而这也是Dunivin的两阶段LLM论文给我们的核心启发：LLM的价值不在于复杂的模型微调，而在于用规则化、分层化的思路，让AI成为人类分析问题、解决问题的高效工具，在人在回路的前提下，实现效率与效果的平衡。