从20世纪60-70年代聚类算法的初步探索到80年代聚类有效性评估的规范化,1987年彼得·鲁斯乌(Peter J. Rousseeuw)在《Journal of Computational and Applied Mathematics》发表的研究,提出轮廓系数(Silhouette Coefficient)与轮廓图,填补了传统聚类分析中可视化解读与量化评估的双重空白(Rousseeuw, 1987)。
20世纪60-70年代,k-means(麦克奎恩,J. MacQueen,1967)、k-median等分区聚类算法陆续出现,但这些算法仅能输出样本的聚类归属列表,缺乏直观的结果解读工具。当时的聚类有效性评估多依赖研究者的主观判断,或简单依托方差分析等方法,难以精准量化“类内样本紧密聚集、类间样本明显分离”这一核心标准。更关键的是,“自然聚类数k的选择”成为突出难题——无论数据本身是否存在对应的自然结构,聚类算法都会强制输出指定k值的结果,导致人工划分与数据真实结构脱节。在这样的行业背景下,鲁斯乌的研究通过构建标准化的系数与可视化图形,为聚类分析提供了兼具客观性与直观性的解决方案(Rousseeuw, 1987)。
轮廓系数的核心计算基于两个关键指标(Rousseeuw, 1987):一是类内平均相异度 \(\mathrm{a}(i)\) ,即样本 \(\mathrm{i}\) 与所属聚类 \(\mathrm{A}\) 中其他所有样本的平均相异度,专门反映类内紧密性,数值越小代表类内样本聚集程度越高;二是类间最小平均相异度 \(\mathrm{b}(i)\) ,即样本 \(\mathrm{i}\) 与所有其他聚类的平均相异度中最小的数值,反映类间分离度,数值越大代表样本与其他聚类的区分度越明显。
单样本轮廓系数的计算公式为:
\(\mathrm{s}(i) = \frac{\mathrm{b}(i) - \mathrm{a}(i)}{\max{\mathrm{a}(i), \mathrm{b}(i)}}\)
特殊情况下,若某个聚类仅包含样本 \(\mathrm{i}\) 这一个个体,则直接设定 \(\mathrm{s}(i)=0\) ,这种处理方式被证明是最中性的选择(Rousseeuw, 1987)。
轮廓系数的取值范围限定在 \([-1, 1]\) ,不同取值对应明确的聚类质量含义(Rousseeuw, 1987):当 \(\mathrm{s}(i)\) 趋近于1时,说明 \(\mathrm{a}(i)\) 远小于 \(\mathrm{b}(i)\) ,样本 \(\mathrm{i}\) 的类内紧密性与类间分离度均表现优异,属于优质聚类结果;当 \(\mathrm{s}(i)\) 等于0时, \(\mathrm{a}(i)\) 与 \(\mathrm{b}(i)\) 数值接近,样本 \(\mathrm{i}\) 处于两个聚类的边界位置,归属关系模糊;当 \(\mathrm{s}(i)\) 趋近于-1时, \(\mathrm{a}(i)\) 远大于 \(\mathrm{b}(i)\) ,样本 \(\mathrm{i}\) 更接近其他聚类,属于误分类情况。
为了直观呈现聚类结果,鲁斯乌设计了轮廓图(Rousseeuw, 1987):单个聚类的轮廓是该类所有样本 \(\mathrm{s}(i)\) 按降序排列的条形图,条形长度与 \(\mathrm{s}(i)\) 数值成正比;整体轮廓图则将所有聚类的轮廓纵向拼接,图中包含聚类索引、邻居聚类(即使 \(\mathrm{d}(i,\mathrm{C})=\mathrm{b}(i)\) 的聚类 \(\mathrm{C}\) ,也就是样本 \(\mathrm{i}\) 的次优归属聚类)、 \(\mathrm{s}(i)\) 数值等关键信息,能清晰展示每个样本的聚类质量与整体聚类结构。
轮廓系数与轮廓图的核心应用集中在三个方面(Rousseeuw, 1987):第一是评估聚类质量,通过轮廓宽度直观判断聚类的紧凑性与分离度,宽轮廓代表聚类质量更优;第二是选择最优聚类数 \(\mathrm{k}\) ,将所有样本 \(\mathrm{s}(i)\) 的平均值定义为整体平均轮廓宽度,最大化该数值对应的 \(\mathrm{k}\) 值,即为数据的自然聚类数;第三是优化聚类结果,对于 \(\mathrm{s}(i)\) 为负的样本,可将其调整至对应的邻居聚类,从而提升整体聚类效果。
鲁斯乌通过两组实证数据验证了方法的有效性(Rousseeuw, 1987):一组是12国相异度数据,基于政治科学学生对12个国家间差异的评分(1-9分尺度),当 \(\mathrm{k}=2\) 时整体平均轮廓宽度为0.28, \(\mathrm{k}=3\) 时提升至0.33,证明 \(\mathrm{k}=3\) 是更贴合数据自然结构的聚类数;另一组是鲁斯皮尼(Ruspini)数据,包含75个二维样本,天然存在4个聚类结构,当 \(\mathrm{k}=4\) 时整体平均轮廓宽度达到最大,与数据真实结构完全契合。
轮廓系数的核心优势在于仅依赖聚类结果本身,而非生成该结果的具体算法,适用于比率尺度的相异度或相似度数据(Rousseeuw, 1987)。它能有效区分自然聚类与人工强制划分的聚类——人工融合不同自然聚类或拆分单个自然聚类,都会导致轮廓图变窄,整体平均轮廓宽度下降。这一方法至今仍是无监督学习领域中聚类有效性评估的核心工具,为数据分析、模式识别、机器学习等多个学科提供了标准化的评估框架。
参考文献
Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20(1), 53-65. https://doi.org/10.1016/0377-0427(87)90125-7