HyDE：零样本检索的假答案破局思路

在传统检索系统陷入无标注数据不可用的困境时，HyDE（Hypothetical Document Embeddings）提供了一种极其巧妙的零样本破局思路。它的核心逻辑甚至有些反直觉：与其让模型死磕查询与文档的匹配，不如先让大语言模型（LLM）一本正经地胡说八道。

具体而言，面对用户的提问，系统首先指令 LLM 生成一段不存在的、假设性的假答案；随后，系统会提取这段假答案的语义向量，去海量资料库中匹配真实的文档。实验证明，由于稠密向量天然具备过滤细节、保留主题的有损压缩特性，哪怕 LLM 编造了错误的数字或人名，只要其核心语义骨架不离题，就能精准牵引出真正相关的权威文献。

这种将相关性建模外包给生成模型、让相似度检索专注文档匹配的解耦设计，不仅在无监督场景下吊打传统关键词检索，更为后续诸多检索增强生成（RAG）技术提供了灵感源泉。

参考文献

Gao, L., Ma, X., Lin, J., & Callan, J. (2023). Precise zero-shot dense retrieval without relevance labels. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1762-1777. https://doi.org/10.18653/v1/2023.acl-long.99