聚类算法系列：聚类标签置换与信息变异度

一、聚类集成的核心障碍：标签置换

无监督聚类算法的输出为样本分配的簇标签，仅具备相对分组含义，不具备固定的数值语义。同一数据集的多次聚类运行中，会出现分组结构一致，但簇标签的数值编号发生全局置换的现象，该现象称为标签置换。

标签置换对聚类集成的结果聚合产生直接干扰。以 K=3 的聚类场景为例，两次独立运行生成的簇标签，可能出现第一次的簇1对应第二次的簇2、第一次的簇2对应第二次的簇3、第一次的簇3对应第二次的簇1的情况。两次运行的分组结构一致，但直接对比标签向量会得到全部分组匹配错误的结果，无法完成多轮聚类结果的有效聚合。

二、传统标签匹配方法的局限

针对标签置换问题，传统解决方案为全排列匹配法。该方法遍历 K 个簇的所有标签排列组合，找到使两次聚类标签匹配误差最小的排列方式，完成标签对齐。

该方法存在明确的计算瓶颈。K 个簇的排列组合总数为 K!，当簇数量 K 上升时，计算量呈阶乘级增长，在高簇数量场景下不具备可行性。直接标签对比法不处理标签置换问题，仅能得到错误的分组差异结果，无法用于聚类集成。

三、信息变异度的核心逻辑与数学基础

信息变异度是基于信息论定义的聚类分区距离度量，由 Marta Meilă 在2003年提出。VI 的核心计算逻辑基于熵与互信息，公式如下：

VI(\ell_1, \ell_2) = H(\ell_1) + H(\ell_2) - 2I(\ell_1, \ell_2)

其中，H(\ell) 为簇标签的香农熵，衡量聚类分区的混乱程度；I(\ell_1, \ell_2) 为两个聚类分区标签的互信息，衡量两个分区的结构相似程度。

VI 也可通过条件熵拆解为：

VI(\ell_1, \ell_2) = H(\ell_1 | \ell_2) + H(\ell_2 | \ell_1)

该表达式的含义为，VI 等于两个聚类分区互相的条件熵之和，即已知其中一个分区的分组信息后，另一个分区剩余的不确定性总和。

四、信息变异度对标签置换的免疫机制

VI 的计算仅依赖两个聚类分区的列联表，即同时属于第一个分区的簇 i 与第二个分区的簇 j 的样本数量统计。列联表的数值仅由样本的共现分组结构决定，与簇标签的数值编号无关。

当两个聚类分区的结构一致时，无论标签编号如何置换，列联表的数值分布仅发生行与列的同步置换，核心计数集合不变。此时两个分区的互信息等于单个分区的熵，VI 计算结果为0，准确反映两个分区结构一致的特征。

当两个聚类分区的结构存在差异时，VI 的数值随结构差异的增大而上升，取值范围在0到log(n)之间（n为样本总量），具备可解释性。VI 的计算复杂度为 O(n + K²)，仅与样本量和簇数量相关，无阶乘级计算瓶颈。

五、信息变异度在可解释聚类框架中的应用

Federico Maria Quetti 等人在2026年提出的基于Bagging的可解释聚类框架中，将 VI 作为核心度量完成多轮聚类结果的共识聚合。该框架通过 bootstrap 重采样与特征丢弃生成多轮聚类结果，每轮结果均存在标签置换的可能性。

框架以 VI 为损失函数，定义共识聚类分区为使所有轮次聚类结果的加权 VI 之和最小的分区，权重为对应轮次聚类的 Dunn 指数。该优化过程无需对多轮结果进行标签对齐，直接通过 VI 完成结构层面的聚合，输出稳定的共识聚类分区，同时基于互信息生成特征重要性评分，实现聚类结果的可解释性。

六、总结

标签置换是无监督聚类集成过程中的核心障碍，传统全排列匹配法存在计算瓶颈。信息变异度基于聚类分区的共现结构完成距离度量，天然对标签置换免疫，同时具备低计算复杂度与明确的信息论可解释性。该度量可有效完成多轮聚类结果的共识聚合，为可解释聚类框架提供稳定的结果输出基础。

参考文献

Quetti, F. M., Ballante, E., Figini, S., & Giudici, P. (2026). Explainable cluster analysis: a bagging approach. arXiv preprint arXiv:2603.19840.