成分数据广泛存在于地质、食品科学、生态学等领域,其定义为满足单纯形约束的多元数据,即\(\mathbb{S}^D = \{\mathbf{x}=(\mathrm{x}_1,\mathrm{x}_2,...,\mathrm{x}_D)^T \mid \mathrm{x}_i \geq 0, \sum_{i=1}^D \mathrm{x}_i=1\}\)(Tsagris et al., 2011)。这类数据的核心挑战在于 “总和约束” 导致的变量关联性,以及零值(部分成分占比为 0)对传统分析方法的限制 —— 例如 Aitchison 提出的对数比变换(如等距对数比变换,ILR)需通过插补处理零值,易引入额外误差(Tsagris, 2015)。本文将聚焦 α- 变换这一通用解决方案,解析其原理、应用及工具实践。
α- 变换:打破成分数据的 “双重束缚”
α- 变换(α-Power Transformation)由 Tsagris 等人(2011)提出,通过可调节参数 α(取值范围\(-1 \leq \alpha \leq 1\)),实现成分数据从单纯形空间到欧氏空间的可逆映射,同时自然处理零值。其核心公式分两种场景:
当\(\alpha \neq 0\)时:先对原始成分数据做幂变换并归一化,得到中间变量\(\mathrm{u}_i = \frac{\mathrm{x}_i^\alpha}{\sum_{j=1}^D \mathrm{x}_j^\alpha}\)(仍满足单纯形约束,保留比例关系);再通过线性映射转换为欧氏空间向量\(\mathbf{z} = \frac{1}{\alpha} \cdot (D \cdot \mathbf{u} - \mathbf{j}_D)\),其中\(\mathbf{j}_D\)为\(D\)维全 1 向量,\(\frac{1}{\alpha}\)为缩放因子(Tsagris et al., 2011)。
当\(\alpha \to 0\)时:变换收敛至 ILR,与传统对数比变换兼容,适用于无零值数据。
α- 变换的关键优势在于零值兼容性:当\(\alpha > 0\)且\(\mathrm{x}_i = 0\)时,\(\mathrm{x}_i^\alpha = 0\),代入公式得\(\mathrm{u}_i = 0\),进一步计算得\(\mathbf{z}\)的对应分量为\(\frac{1}{\alpha} \cdot (0 - 1) = -\frac{1}{\alpha}\),无需任何插补即可保持数学意义(Tsagris, 2015)。例如在含 12% 零值的岩石成分数据中,α=0.5 的变换使聚类准确率达 86%,显著高于 ILR(插补后准确率 68%)(Tsagris et al., 2011)。
α 的选择:数据驱动而非主观设定
α 的取值直接影响变换效果,其选择需遵循 “数据驱动” 原则,核心指标为重构误差—— 即原始数据与从变换后数据重构的结果之间的欧氏距离,公式为:
\(E(\alpha) = \frac{1}{nD}\sum_{k=1}^n\sum_{i=1}^D (\mathrm{x}_{k,i} - \hat{\mathrm{x}}_{k,i}(\alpha))^2\)
其中\(n\)为样本量,\(\hat{\mathrm{x}}_{k,i}(\alpha)\)为基于 α 变换重构的第\(k\)个样本第\(i\)个成分(Tsagris et al., 2011)。实践中需遍历候选 α 集(通常为\(\{-1, -0.8, ..., 0.8, 1\}\)),选择使\(E(\alpha)\)最小的 α 值。
不同数据场景的 α 选择存在规律:无零值且分布对称的数据(如食品营养成分数据)可选 α=0(即 ILR);含零值(比例≤20%)的数据可选 α=0.2~0.6(如 10% 零值的模拟数据中,α=0.4 使重构误差仅 0.45,远低于 ILR 插补后的 1.23);极端偏态数据(如某成分占比超 80%)可选 α=-0.5~-0.1(Tsagris et al., 2011)。
从变换到建模:α- 回归与空间分析拓展
α- 变换并非孤立的预处理工具,其可与回归、空间模型结合,形成完整的分析框架。Tsagris(2015)提出的 α- 回归模型,通过逆加性 logistic 链接函数确保拟合值始终落在单纯形内,公式为:
\(\mu_1 = \frac{1}{1+\sum_{j=1}^{d}e^{\mathbf{x}^T\beta_j}}, \quad \mu_i = \frac{e^{\mathbf{x}^T\beta_i}}{1+\sum_{j=1}^{d}e^{\mathbf{x}^T\beta_j}} \quad (i=2,...,D)\)
其中\(\beta_i\)为回归系数,\(\mathbf{x}\)为协变量。该模型通过最小化 Kullback-Leibler 散度(\(KL=2\sum_{j=1}^n\sum_{i=1}^D \mathrm{y}_{i,j}\log(\mathrm{y}_{i,j}/\hat{\mathrm{y}}_{i,j})\))选择最优 α,在含零值的玻璃化学成分数据中,α=1 的回归模型 R² 达 0.91,MSPE 仅 1.237,优于 ILR(插补后 R²=0.89,MSPE=2.403)。
结语
α- 变换通过参数化设计,为成分数据的 “总和约束” 与 “零值处理” 提供了通用解决方案,其与回归、空间模型的结合,进一步拓展了成分数据分析的边界。CompositionalSR 包的工程化实现,使这一方法从理论落地为可操作工具。
参考文献
Tsagris, M. (2015). Regression analysis with compositional data containing zero values. arXiv Preprint arXiv:1508.01913v1. https://arxiv.org/pdf/1508.01913v1.pdf
Tsagris, M. T., Preston, S., & Wood, A. T. A. (2011). A data-based power transformation for compositional data. arXiv Preprint arXiv:1106.1451. https://arxiv.org/pdf/1106.1451.pdf