LLM：定性编码的假阳性解决方案

从LLM辅助定性编码的模型微调适配到工作流优化，本质是在探索平衡效率与准确性的路径。由 Zackary Okun Dunivin、Mobina Noori 等学者提出的两阶段LLM自反思定性编码方法，为解决自动化标注中的假阳性（ \(\mathrm{FP}\) ）难题提供了新范式，无需修改模型参数即可实现全而准的标注结果。

研究背景与核心痛点

定性编码广泛应用于学术研究、政策分析、项目评估等场景，例如Apache软件基金会（Apache Software Foundation）的项目毕业评估邮件分类。传统LLM直接标注时，即便测试集 \(\mathrm{F1}\) 分数处于0.74-1.00的高位，大规模应用中假阳性率仍可达8%-54%，即部分文本本不符合标签定义，却被错误标注为阳性。这类问题源于LLM对标签边界的误读或对文本语境的偏差理解，影响标注结果的可靠性。

两阶段工作流拆解

该方法的核心是先扩召回，再提准确的两阶段流程，全程依赖Prompt设计与规则约束，不涉及模型参数微调。

第一阶段为标注阶段，核心目标是保障召回率（ \(\mathrm{Recall}\) ）。研究人员将人类使用的编码手册优化为LLM可理解的版本，明确标签定义与排除条款，让LLM对每条文本逐一判断标签归属（阳性/阴性），并输出标注理由。此阶段采用宁多勿漏的宽松策略，确保所有真阳性样本被纳入候选，即便附带大量假阳性。例如在导师参与（Mentor Engagement）标签标注中，LLM可能将仅提及导师参与投票统计的邮件误判为阳性，并给出涉及导师相关工作的理由。

第二阶段为批判阶段，聚焦提升精准度（ \(\mathrm{Precision}\) ）。另一LLM作为批判者，仅针对第一阶段的阳性结果展开审核，参考文本原文、标签正式定义与初始标注理由，依据两类核心假阳性类型进行筛选。第一类是元讨论（ \(\mathrm{Meta-discussion}\) ），指文本围绕标签定义或政策本身展开，而非描述是否符合标签要求，如某封邮件争论Apache项目毕业政策的合理性，却被标注为政策合规（Policy Compliance）阳性；第二类是误解读（ \(\mathrm{Misinterpretation}\) ），即LLM忽略标签边界条件，如将仅描述项目功能目标的文本误判为技术相关性和市场适配（Technical and Market）阳性。审核遵循充分性规则：只要初始标注理由中有一条符合标签定义，即保留阳性结果；仅当所有理由均属于假阳性类型时，才将标签修正为阴性。

Human-in-the-loop 的核心作用

该方法中的 Human-in-the-loop 并非要求人类逐一审阅标注结果，而是通过四个关键环节实现对流程的把控。首先，人类优化编码手册，为LLM划定标签边界；其次，通过手动审计360条样本（60条/标签），提炼出元讨论、误解读两类高频假阳性类型；再次，设计批判阶段的Prompt规则，明确审核标准与充分性原则；最后，构建专家标注的金标准样本（共270条），验证两阶段流程的效果并调整参数，确保标注结果符合人类研究需求，实现有限自主（ \(\text{bounded-autonomy}\) ）。

研究团队与实际效果

实验数据显示，经过两阶段流程优化后，导师参与标签的 \(\mathrm{F1}\) 分数从0.55提升至0.79，技术相关性和市场适配标签的 \(\mathrm{F1}\) 分数从0.52提升至0.69，在保持召回率稳定的前提下，大幅降低了假阳性率。

适用场景与价值

该方法适用于所有定性编码场景，包括学术访谈文本分类、政策文件标注、企业内部文档审核等，尤其适合数据量有限、标签定义复杂的任务。其核心价值在于以低成本实现高效准确的自动化标注，无需投入大量算力进行模型微调，仅通过优化编码手册与设计批判规则，即可将LLM的标注能力与人类的规则判断相结合，平衡效率与可靠性。

参考文献

Dunivin, Z. O., Noori, M., Frey, S., & Atkinson, C. (2025). Two-Stage LLM Self-Reflective Qualitative Coding: Mitigating False Positives in Automated Annotation. Unpublished manuscript. Stuttgart University, Stuttgart, Germany; University of California, Davis, Davis, CA, USA; University of Washington, Seattle, WA, USA.