1 min read

熵:多样性度量

在机器学习系统的安全部署中,离群分布(OOD)检测是关键环节,模型面对未见过的输入时,常产生高置信度错误预测,这在金融风控、自动驾驶、医学影像等高危场景中可能引发严重后果。传统OOD检测方法要么依赖严格的分布假设,要么计算成本高昂,而Vendi Novelty Score(VNS)的出现,以熵为核心,从多样性视角提供了一种解决方案,既保持高效性,又突破了传统方法的局限。

熵与多样性:Vendi Score的逻辑

提到熵,多数人会联想到香农熵(Shannon Entropy),其核心是衡量概率分布的无序度与不确定性。而Vendi Score作为相似度基的多样性度量,本质上是香农熵的广义形式——雷尼熵(Rényi Entropy)的应用延伸,专门为集合多样性设计。

Vendi Score 的定义基于相似度矩阵的特征值分布:对于一组数据点,通过核函数构建相似度矩阵后,计算其特征值的熵并取指数,得到最终的多样性分数(Pasarkar & Dieng, 2026)。当特征值分布均匀时,熵值较大,意味着数据在特征空间中分布分散、多样性强,对应的系统复杂度也更高;当少数特征值占据主导时,熵值较小,数据则高度聚集、多样性低,而多样性低的背后,正是系统的秩被压缩,核心的独立变化方向极少,对应的系统实际复杂度也更低。这种逻辑与香农熵 “分布越均匀,熵越大” 的核心思想一致,也与低秩的核心概念相契合,看似由大量数据构成的特征空间,若仅少数特征值主导,本质就是低秩结构的体现,其表面的特征变量看似繁多,实则高度相关,并未形成新的独立维度,最终呈现出低多样性、低复杂度的本质特征。

论文中重点使用了两种Vendi Score变体:q=2时,分数简化为相似度矩阵平方迹的倒数,能有效捕捉特征空间的整体多样性;q=∞时,分数仅依赖最大特征值,计算效率极高,适合全局背景建模(Pasarkar & Dieng, 2026)。这两种变体的设计,为后续OOD检测的高效实现奠定了基础。

从熵的变化到新颖性:VNS的创新

VNS的核心思路的是通过“熵的变化”衡量样本新颖性,即测试样本加入分布内(ID)数据集后,Vendi Score的改变幅度。这一逻辑直观:ID样本与现有数据特征相似,加入后不会显著改变数据集多样性,熵的变化量小;OOD样本与现有数据差异大,会大幅提升多样性,熵的变化量显著(Pasarkar & Dieng, 2026)。

为了兼顾检测精度与效率,VNS做了三层关键设计:

  1. 类条件新颖性:针对每个类别,计算样本加入后的Vendi Score变化(Δ_c(x)),使用q=2的Vendi Score,并用秩1近似仅保留最大特征值,将计算复杂度从O(D²)降至O(D),同时避免小类别中的估计噪声(Pasarkar & Dieng, 2026)。

  2. 概率加权聚合:不依赖单一预测类别,而是选取模型预测概率最高的K个类别,用预测概率的γ次幂加权类条件新颖性分数,同时通过类别大小(N_c)缩放,消除样本量对分数的影响(Pasarkar & Dieng, 2026)。

  3. 全局多样性校正:基于q=∞的Vendi Score,计算样本对整个数据集多样性的影响,作为全局背景校正项,进一步提升检测鲁棒性(Pasarkar & Dieng, 2026)。

最终VNS分数为局部新颖性分数减去全局校正项,分数越大表示样本越新颖,越可能是OOD样本。这种设计自然融合了局部与全局信息,且时间复杂度仅为O(CD)(C为类别数,D为特征维度),显著优于马氏距离等传统方法的O(CD²)(Pasarkar & Dieng, 2026)。

结语

以熵为核心的Vendi Score,为OOD检测提供了从多样性视角出发的范式。VNS通过融合局部与全局新颖性信号,在保持高效计算的同时,实现了检测性能的突破,尤其在数据受限场景中展现出独特优势。它不仅弥补了传统熵方法的局限,也为机器学习系统的安全部署提供了更可靠的技术支撑,未来随着核函数拓展与跨模态应用,其在高风险场景中的价值将进一步凸显。

参考文献

Pasarkar, A. P., & Dieng, A. B. (2026). Vendi Novelty Scores for Out-of-Distribution Detection. arXiv preprint arXiv:2602.10062v1 [cs.LG].