质性研究中的扎根理论长期依赖人工编码,效率低且易产生主观偏差。2025 年《LOGOS: LLM-driven End-to-End Grounded Theory Development and Schema Induction for Qualitative Research》提出的方法,借助大语言模型实现了研究流程端到端自动化。
传统扎根理论的瓶颈:人工主导的低效与局限
扎根理论核心的 “开放 - 主轴 - 选择性” 编码阶段,均需人工操作:开放编码依赖逐行分析,易受经验影响;主轴编码的聚类靠直觉,可能遗漏关联;选择性编码修订周期长且难标准化,导致研究客观性与可重复性存疑。
LOGOS 的创新:用 AI 实现扎根理论全流程自动化
LOGOS 以 LLM 为核心的多技术自动化流程,与传统扎根理论步骤存在对应关系。文本分块类似数据预处理,开放编码对应初始编码,后续步骤也分别与扎根理论其他关键环节契合。修改时将在各部分后补充对应说明。
LOGOS 以 LLM 为核心,结合多技术实现自动化,各环节与传统扎根理论步骤对应关系如下:
文本分块:采用 “2048 词分块 + 200 词重叠” 策略,适配 LLM 处理能力且保障语义连贯。
- 对应传统扎根理论步骤:数据预处理阶段。在传统扎根理论中,研究者需要对原始数据(如访谈记录、观察笔记等)进行分割和整理,以便后续分析。LOGOS 的文本分块策略,正是将原始文本数据切割成适合 LLM 处理的片段,为后续编码分析奠定基础,类似于传统扎根理论将大量原始数据拆解成可操作的单元。
开放编码:LLM 为文本块自动生成 20 个描述性代码,效率大幅提升且减少主观偏差。
- 对应传统扎根理论步骤:初始编码(开放编码)阶段。传统扎根理论中,开放编码要求研究者逐字逐句分析数据,提炼出初始概念和范畴。LOGOS 利用 LLM 自动生成描述性代码,替代了人工逐条分析的过程,快速从文本中提取关键概念,本质上与传统开放编码通过分析数据提炼初始代码的目标一致 。
代码嵌入与聚类:将代码向量化后用 K-means 聚类,以轮廓系数判断最优簇数,让聚类更客观。
- 对应传统扎根理论步骤:轴心编码阶段。在传统扎根理论的轴心编码中,研究者需将开放编码得到的初始代码进行归类,寻找概念之间的联系。LOGOS 通过代码向量化和 K-means 聚类,自动将相似代码聚合,挖掘代码间的潜在关联,与轴心编码将分散的初始代码整合为有逻辑关系的类别这一过程相呼应 。
代码关系识别:LLM 通过语义分析与逻辑建模,可精准识别四种核心关系1:
因果关系:一个代码所代表的现象引发另一个代码对应现象的产生,体现逻辑上的前因后果。
相似关系:不同代码在语义、属性或行为表现上具有较高的相似性,可归为同类概念。
层级关系:代码间存在包含与被包含、整体与部分的结构关系,反映概念的抽象层次差异。
相关关系:代码之间存在某种程度的关联,但并非严格的因果、相似或层级关系,可能是伴随出现或相互影响 。
对应传统扎根理论步骤:轴心编码与选择性编码阶段。该步骤不仅进一步深化了轴心编码中对代码关系的挖掘,还涉及选择性编码中对核心范畴的提炼与关系梳理。LOGOS 利用 LLM 识别多种代码关系,帮助研究者构建更系统的理论框架,类似于传统扎根理论通过分析概念间关系,提炼出核心范畴及其相互联系。
层级代码图与清理:自动合并等价代码、移除低频代码,精简理论框架。
- 对应传统扎根理论步骤:选择性编码与理论精简阶段。在传统扎根理论的选择性编码过程中,研究者需要从已有的概念和范畴中提炼出核心范畴,并清理冗余信息,简化理论框架。LOGOS 自动合并等价代码、移除低频代码,使得理论框架更加简洁清晰,与传统扎根理论对理论进行精简、聚焦核心内容的操作一致。
迭代精炼:通过 3 轮 “生成 - 修剪 - 修订 - 重建”,提升理论可复用性。
- 对应传统扎根理论步骤:理论饱和检验与迭代优化阶段。传统扎根理论中,研究者需要不断回顾数据、代码和理论,进行迭代分析,直至达到理论饱和(即新的数据不再产生新的概念和关系)。LOGOS 通过多轮 “生成 - 修剪 - 修订 - 重建” 流程,持续优化理论模型,确保理论的完整性和普适性,这与传统扎根理论通过反复迭代完善理论的过程相契合。
技术实现:从理论到代码的落地
LOGOS 可用 Python 实现,依赖jieba分词、sentence-transformers向量嵌入、scikit-learn聚类、networkx图构建及 LLM API 调用等技术。
为何 LOGOS 对质性研究意义重大?
LOGOS 推动质性研究范式升级:以算法提升客观性;支持海量文本处理实现规模化;降低对编码专家的依赖,让研究更聚焦理论创新。
结语
LOGOS 重新定义扎根理论实践,使质性研究兼具深度与量化研究的效率和可重复性。未来,“AI + 质性研究” 将推动理论生成迈向 “数据与智能双轮驱动”。
参考文献
Pi, X., Yang, Q., & Nguyen, C. (2025). LOGOS: LLM-driven end-to-end grounded theory development and schema induction for qualitative research. arXiv [cs.CL]. https://arxiv.org/abs/2509.24294