一、聚类集成的核心障碍:标签置换
无监督聚类算法的输出为样本分配的簇标签,仅具备相对分组含义,不具备固定的数值语义。同一数据集的多次聚类运行中,会出现分组结构一致,但簇标签的数值编号发生全局置换的现象,该现象称为标签置换。
标签置换对聚类集成的结果聚合产生直接干扰。以 K=3 的聚类场景为例,两次独立运行生成的簇标签,可能出现第一次的簇1对应第二次的簇2、第一次的簇2对应第二次的簇3、第一次的簇3对应第二次的簇1的情况。两次运行的分组结构一致,但直接对比标签向量会得到全部分组匹配错误的结果,无法完成多轮聚类结果的有效聚合。
二、传统标签匹配方法的局限
针对标签置换问题,传统解决方案为全排列匹配法。该方法遍历 K 个簇的所有标签排列组合,找到使两次聚类标签匹配误差最小的排列方式,完成标签对齐。
该方法存在明确的计算瓶颈。K 个簇的排列组合总数为 K!,当簇数量 K 上升时,计算量呈阶乘级增长,在高簇数量场景下不具备可行性。直接标签对比法不处理标签置换问题,仅能得到错误的分组差异结果,无法用于聚类集成。
三、信息变异度的核心逻辑与数学基础
信息变异度是基于信息论定义的聚类分区距离度量,由 Marta Meilă 在2003年提出。VI 的核心计算逻辑基于熵与互信息,公式如下:
VI(\ell_1, \ell_2) = H(\ell_1) + H(\ell_2) - 2I(\ell_1, \ell_2)
其中,H(\ell) 为簇标签的香农熵,衡量聚类分区的混乱程度;I(\ell_1, \ell_2) 为两个聚类分区标签的互信息,衡量两个分区的结构相似程度。
VI 也可通过条件熵拆解为:
VI(\ell_1, \ell_2) = H(\ell_1 | \ell_2) + H(\ell_2 | \ell_1)
该表达式的含义为,VI 等于两个聚类分区互相的条件熵之和,即已知其中一个分区的分组信息后,另一个分区剩余的不确定性总和。
四、信息变异度对标签置换的免疫机制
VI 的计算仅依赖两个聚类分区的列联表,即同时属于第一个分区的簇 i 与第二个分区的簇 j 的样本数量统计。列联表的数值仅由样本的共现分组结构决定,与簇标签的数值编号无关。
当两个聚类分区的结构一致时,无论标签编号如何置换,列联表的数值分布仅发生行与列的同步置换,核心计数集合不变。此时两个分区的互信息等于单个分区的熵,VI 计算结果为0,准确反映两个分区结构一致的特征。
当两个聚类分区的结构存在差异时,VI 的数值随结构差异的增大而上升,取值范围在0到log(n)之间(n为样本总量),具备可解释性。VI 的计算复杂度为 O(n + K²),仅与样本量和簇数量相关,无阶乘级计算瓶颈。
五、信息变异度在可解释聚类框架中的应用
Federico Maria Quetti 等人在2026年提出的基于Bagging的可解释聚类框架中,将 VI 作为核心度量完成多轮聚类结果的共识聚合。该框架通过 bootstrap 重采样与特征丢弃生成多轮聚类结果,每轮结果均存在标签置换的可能性。
框架以 VI 为损失函数,定义共识聚类分区为使所有轮次聚类结果的加权 VI 之和最小的分区,权重为对应轮次聚类的 Dunn 指数。该优化过程无需对多轮结果进行标签对齐,直接通过 VI 完成结构层面的聚合,输出稳定的共识聚类分区,同时基于互信息生成特征重要性评分,实现聚类结果的可解释性。
六、总结
标签置换是无监督聚类集成过程中的核心障碍,传统全排列匹配法存在计算瓶颈。信息变异度基于聚类分区的共现结构完成距离度量,天然对标签置换免疫,同时具备低计算复杂度与明确的信息论可解释性。该度量可有效完成多轮聚类结果的共识聚合,为可解释聚类框架提供稳定的结果输出基础。
参考文献
Quetti, F. M., Ballante, E., Figini, S., & Giudici, P. (2026). Explainable cluster analysis: a bagging approach. arXiv preprint arXiv:2603.19840.