团伙挖掘：轮廓系数

从20世纪60-70年代聚类算法的初步探索到80年代聚类有效性评估的规范化，1987年彼得·鲁斯乌（Peter J. Rousseeuw）在《Journal of Computational and Applied Mathematics》发表的研究，提出轮廓系数（Silhouette Coefficient）与轮廓图，填补了传统聚类分析中可视化解读与量化评估的双重空白（Rousseeuw, 1987）。

20世纪60-70年代，k-means（麦克奎恩，J. MacQueen，1967）、k-median等分区聚类算法陆续出现，但这些算法仅能输出样本的聚类归属列表，缺乏直观的结果解读工具。当时的聚类有效性评估多依赖研究者的主观判断，或简单依托方差分析等方法，难以精准量化“类内样本紧密聚集、类间样本明显分离”这一核心标准。更关键的是，“自然聚类数k的选择”成为突出难题——无论数据本身是否存在对应的自然结构，聚类算法都会强制输出指定k值的结果，导致人工划分与数据真实结构脱节。在这样的行业背景下，鲁斯乌的研究通过构建标准化的系数与可视化图形，为聚类分析提供了兼具客观性与直观性的解决方案（Rousseeuw, 1987）。

轮廓系数的核心计算基于两个关键指标（Rousseeuw, 1987）：一是类内平均相异度 \(\mathrm{a}(i)\) ，即样本 \(\mathrm{i}\) 与所属聚类 \(\mathrm{A}\) 中其他所有样本的平均相异度，专门反映类内紧密性，数值越小代表类内样本聚集程度越高；二是类间最小平均相异度 \(\mathrm{b}(i)\) ，即样本 \(\mathrm{i}\) 与所有其他聚类的平均相异度中最小的数值，反映类间分离度，数值越大代表样本与其他聚类的区分度越明显。

单样本轮廓系数的计算公式为：

\(\mathrm{s}(i) = \frac{\mathrm{b}(i) - \mathrm{a}(i)}{\max{\mathrm{a}(i), \mathrm{b}(i)}}\)

特殊情况下，若某个聚类仅包含样本 \(\mathrm{i}\) 这一个个体，则直接设定 \(\mathrm{s}(i)=0\) ，这种处理方式被证明是最中性的选择（Rousseeuw, 1987）。

轮廓系数的取值范围限定在 \([-1, 1]\) ，不同取值对应明确的聚类质量含义（Rousseeuw, 1987）：当 \(\mathrm{s}(i)\) 趋近于1时，说明 \(\mathrm{a}(i)\) 远小于 \(\mathrm{b}(i)\) ，样本 \(\mathrm{i}\) 的类内紧密性与类间分离度均表现优异，属于优质聚类结果；当 \(\mathrm{s}(i)\) 等于0时， \(\mathrm{a}(i)\) 与 \(\mathrm{b}(i)\) 数值接近，样本 \(\mathrm{i}\) 处于两个聚类的边界位置，归属关系模糊；当 \(\mathrm{s}(i)\) 趋近于-1时， \(\mathrm{a}(i)\) 远大于 \(\mathrm{b}(i)\) ，样本 \(\mathrm{i}\) 更接近其他聚类，属于误分类情况。

为了直观呈现聚类结果，鲁斯乌设计了轮廓图（Rousseeuw, 1987）：单个聚类的轮廓是该类所有样本 \(\mathrm{s}(i)\) 按降序排列的条形图，条形长度与 \(\mathrm{s}(i)\) 数值成正比；整体轮廓图则将所有聚类的轮廓纵向拼接，图中包含聚类索引、邻居聚类（即使 \(\mathrm{d}(i,\mathrm{C})=\mathrm{b}(i)\) 的聚类 \(\mathrm{C}\) ，也就是样本 \(\mathrm{i}\) 的次优归属聚类）、 \(\mathrm{s}(i)\) 数值等关键信息，能清晰展示每个样本的聚类质量与整体聚类结构。

轮廓系数与轮廓图的核心应用集中在三个方面（Rousseeuw, 1987）：第一是评估聚类质量，通过轮廓宽度直观判断聚类的紧凑性与分离度，宽轮廓代表聚类质量更优；第二是选择最优聚类数 \(\mathrm{k}\) ，将所有样本 \(\mathrm{s}(i)\) 的平均值定义为整体平均轮廓宽度，最大化该数值对应的 \(\mathrm{k}\) 值，即为数据的自然聚类数；第三是优化聚类结果，对于 \(\mathrm{s}(i)\) 为负的样本，可将其调整至对应的邻居聚类，从而提升整体聚类效果。

鲁斯乌通过两组实证数据验证了方法的有效性（Rousseeuw, 1987）：一组是12国相异度数据，基于政治科学学生对12个国家间差异的评分（1-9分尺度），当 \(\mathrm{k}=2\) 时整体平均轮廓宽度为0.28， \(\mathrm{k}=3\) 时提升至0.33，证明 \(\mathrm{k}=3\) 是更贴合数据自然结构的聚类数；另一组是鲁斯皮尼（Ruspini）数据，包含75个二维样本，天然存在4个聚类结构，当 \(\mathrm{k}=4\) 时整体平均轮廓宽度达到最大，与数据真实结构完全契合。

轮廓系数的核心优势在于仅依赖聚类结果本身，而非生成该结果的具体算法，适用于比率尺度的相异度或相似度数据（Rousseeuw, 1987）。它能有效区分自然聚类与人工强制划分的聚类——人工融合不同自然聚类或拆分单个自然聚类，都会导致轮廓图变窄，整体平均轮廓宽度下降。这一方法至今仍是无监督学习领域中聚类有效性评估的核心工具，为数据分析、模式识别、机器学习等多个学科提供了标准化的评估框架。

参考文献

Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20(1), 53-65. https://doi.org/10.1016/0377-0427(87)90125-7

团伙挖掘系列导航

参考文献

团伙挖掘系列导航

团伙挖掘：轮廓系数

团伙挖掘 系列导航

参考文献

团伙挖掘 系列导航

团伙挖掘系列导航

团伙挖掘系列导航