成分回归：α- 变换

成分数据广泛存在于地质、食品科学、生态学等领域，其定义为满足单纯形约束的多元数据，即\(\mathbb{S}^D = \{\mathbf{x}=(\mathrm{x}_1,\mathrm{x}_2,...,\mathrm{x}_D)^T \mid \mathrm{x}_i \geq 0, \sum_{i=1}^D \mathrm{x}_i=1\}\)（Tsagris et al., 2011）。这类数据的核心挑战在于 “总和约束” 导致的变量关联性，以及零值（部分成分占比为 0）对传统分析方法的限制 —— 例如 Aitchison 提出的对数比变换（如等距对数比变换，ILR）需通过插补处理零值，易引入额外误差（Tsagris, 2015）。本文将聚焦 α- 变换这一通用解决方案，解析其原理、应用及工具实践。

α- 变换：打破成分数据的 “双重束缚”

α- 变换（α-Power Transformation）由 Tsagris 等人（2011）提出，通过可调节参数 α（取值范围\(-1 \leq \alpha \leq 1\)），实现成分数据从单纯形空间到欧氏空间的可逆映射，同时自然处理零值。其核心公式分两种场景：

当\(\alpha \neq 0\)时：先对原始成分数据做幂变换并归一化，得到中间变量\(\mathrm{u}_i = \frac{\mathrm{x}_i^\alpha}{\sum_{j=1}^D \mathrm{x}_j^\alpha}\)（仍满足单纯形约束，保留比例关系）；再通过线性映射转换为欧氏空间向量\(\mathbf{z} = \frac{1}{\alpha} \cdot (D \cdot \mathbf{u} - \mathbf{j}_D)\)，其中\(\mathbf{j}_D\)为\(D\)维全 1 向量，\(\frac{1}{\alpha}\)为缩放因子（Tsagris et al., 2011）。
当\(\alpha \to 0\)时：变换收敛至 ILR，与传统对数比变换兼容，适用于无零值数据。

α- 变换的关键优势在于零值兼容性：当\(\alpha > 0\)且\(\mathrm{x}_i = 0\)时，\(\mathrm{x}_i^\alpha = 0\)，代入公式得\(\mathrm{u}_i = 0\)，进一步计算得\(\mathbf{z}\)的对应分量为\(\frac{1}{\alpha} \cdot (0 - 1) = -\frac{1}{\alpha}\)，无需任何插补即可保持数学意义（Tsagris, 2015）。例如在含 12% 零值的岩石成分数据中，α=0.5 的变换使聚类准确率达 86%，显著高于 ILR（插补后准确率 68%）（Tsagris et al., 2011）。

α 的选择：数据驱动而非主观设定

α 的取值直接影响变换效果，其选择需遵循 “数据驱动” 原则，核心指标为重构误差—— 即原始数据与从变换后数据重构的结果之间的欧氏距离，公式为：

\(E(\alpha) = \frac{1}{nD}\sum_{k=1}^n\sum_{i=1}^D (\mathrm{x}_{k,i} - \hat{\mathrm{x}}_{k,i}(\alpha))^2\)

其中\(n\)为样本量，\(\hat{\mathrm{x}}_{k,i}(\alpha)\)为基于 α 变换重构的第\(k\)个样本第\(i\)个成分（Tsagris et al., 2011）。实践中需遍历候选 α 集（通常为\(\{-1, -0.8, ..., 0.8, 1\}\)），选择使\(E(\alpha)\)最小的 α 值。

不同数据场景的 α 选择存在规律：无零值且分布对称的数据（如食品营养成分数据）可选 α=0（即 ILR）；含零值（比例≤20%）的数据可选 α=0.2~0.6（如 10% 零值的模拟数据中，α=0.4 使重构误差仅 0.45，远低于 ILR 插补后的 1.23）；极端偏态数据（如某成分占比超 80%）可选 α=-0.5~-0.1（Tsagris et al., 2011）。

从变换到建模：α- 回归与空间分析拓展

α- 变换并非孤立的预处理工具，其可与回归、空间模型结合，形成完整的分析框架。Tsagris（2015）提出的 α- 回归模型，通过逆加性 logistic 链接函数确保拟合值始终落在单纯形内，公式为：

\(\mu_1 = \frac{1}{1+\sum_{j=1}^{d}e^{\mathbf{x}^T\beta_j}}, \quad \mu_i = \frac{e^{\mathbf{x}^T\beta_i}}{1+\sum_{j=1}^{d}e^{\mathbf{x}^T\beta_j}} \quad (i=2,...,D)\)

其中\(\beta_i\)为回归系数，\(\mathbf{x}\)为协变量。该模型通过最小化 Kullback-Leibler 散度（\(KL=2\sum_{j=1}^n\sum_{i=1}^D \mathrm{y}_{i,j}\log(\mathrm{y}_{i,j}/\hat{\mathrm{y}}_{i,j})\)）选择最优 α，在含零值的玻璃化学成分数据中，α=1 的回归模型 R² 达 0.91，MSPE 仅 1.237，优于 ILR（插补后 R²=0.89，MSPE=2.403）。

结语

α- 变换通过参数化设计，为成分数据的 “总和约束” 与 “零值处理” 提供了通用解决方案，其与回归、空间模型的结合，进一步拓展了成分数据分析的边界。CompositionalSR 包的工程化实现，使这一方法从理论落地为可操作工具。

参考文献

Tsagris, M. (2015). Regression analysis with compositional data containing zero values. arXiv Preprint arXiv:1508.01913v1. https://arxiv.org/pdf/1508.01913v1.pdf

Tsagris, M. T., Preston, S., & Wood, A. T. A. (2011). A data-based power transformation for compositional data. arXiv Preprint arXiv:1106.1451. https://arxiv.org/pdf/1106.1451.pdf

成分回归系列导航

α- 变换：打破成分数据的 “双重束缚”

α 的选择：数据驱动而非主观设定

从变换到建模：α- 回归与空间分析拓展

结语

参考文献

成分回归系列导航

成分回归：α- 变换

成分回归 系列导航

α- 变换：打破成分数据的 “双重束缚”

α 的选择：数据驱动而非主观设定

从变换到建模：α- 回归与空间分析拓展

结语

参考文献

成分回归 系列导航

成分回归系列导航

成分回归系列导航