集成学习：基于 MSE 与协方差的预测策略优化

1. 研究背景与核心目标

在集成机器学习领域，传统模型（如随机森林、梯度提升）通过平均多模型预测或迭代纠错提升精度，但普遍存在 “对所有数据单元采用统一预测策略” 的局限 —— 未考虑模型间预测的一致性差异，导致部分场景下精度未达最优（Giudici, P., Mariani, F., & Polinesi, G., 2026）。针对这一问题，Giudici 等人（2026）提出混合集成机器学习模型，核心目标是在无需重新训练模型的前提下，利用不同模型预测间的协方差（记为\(C\)）动态调整预测方式，使模型在分类与回归任务中均优于传统集成模型与单一最优模型。

2. 核心定义与数学基础

要理解该混合模型，需先明确三个关键定义，所有符号与公式均源自原研究（Giudici et al., 2026）：

（1）完整集成模型预测

完整集成模型通过对\(M\)个基础模型的预测值加权平均生成结果，公式为：

\(p_{ai} = \sum_{j=1}^{M} w_j p_{ji}\)

其中，\(w_j \geq 0\)且\(\sum_{j=1}^{M} w_j = 1\)（\(w_j\)为第\(j\)个基础模型的权重），\(p_{ji}\)代表第\(j\)个模型对第\(i\)个数据单元的预测值。该定义是传统集成学习 “取平均” 策略的数学表达（Giudici et al., 2026）。

（2）简化集成模型预测

研究将\(M\)个基础模型划分为两组（记为\(a_1\)和\(a_2\)），分别计算每组的加权平均预测，公式为：

\(p_{a_1i} = \frac{1}{W} \sum_{j=1}^{M_1} w_j p_{ji}, \quad p_{a_2i} = \frac{1}{1-W} \sum_{j=M_1+1}^{M} w_j p_{ji}\)

其中，\(M_1\)为第一组模型数量（\(0 < M_1 < M\)），\(W = \sum_{j=1}^{M_1} w_j\)（第一组模型的权重和）。原研究假设\(a_1\)为 “最优简化模型”，即其均方误差（\(\mathrm{MSE}_{a_1}\)）小于第二组（\(\mathrm{MSE}_{a_1} \leq \mathrm{MSE}_{a_2}\)）（Giudici et al., 2026）。

（3）协方差（\(C\)）

协方差\(C\)指两组简化集成模型（\(a_1\)与\(a_2\)）预测值的样本协方差，用于量化两模型预测的一致性 ——\(C\)越小，两模型预测越同步；\(C\)越大，两模型预测差异越显著（Giudici et al., 2026）。

3. 关键命题与 MSE 拆解逻辑

原研究的核心突破的是通过命题 1拆解完整集成模型的 MSE，揭示协方差对预测精度的影响，这也是混合策略的数学依据（Giudici et al., 2026）。

命题 1：完整集成模型的 MSE 构成

完整集成模型的 MSE（记为\(\mathrm{MSE}_a\)）可分解为两组简化模型的 MSE 与协方差的函数，公式为：

\(\mathrm{MSE}_a = W^2 \mathrm{MSE}_{a_1} + (1-W)^2 \mathrm{MSE}_{a_2} + 2W(1-W)C\)

其中，\(\mathrm{MSE}_{a_1}\)和\(\mathrm{MSE}_{a_2}\)分别为两组简化模型的 MSE，\(W\)为第一组模型的权重和，\(C\)为两组模型预测的协方差。

核心推论：协方差决定预测策略

从命题 1 的公式可直接推导两类场景的最优策略（Giudici et al., 2026）：

当\(C\)较大时：公式中最后一项（\(2W(1-W)C\)）为正向增量，会显著抬高\(\mathrm{MSE}_a\)，此时完整集成模型的精度低于最优简化模型（\(a_1\)），应选择\(a_1\)进行预测；
当\(C\)较小时：最后一项增量微弱，\(\mathrm{MSE}_a\)主要由前两项（两组简化模型的加权 MSE）决定，且整体小于\(\mathrm{MSE}_{a_1}\)，此时应采用完整集成模型 “取平均” 的策略。

4. 混合集成模型算法流程

基于上述推论，原研究设计了三步算法构建混合集成模型，实现动态预测策略选择（Giudici et al., 2026）：

数据排序：根据最优简化模型（\(a_1\)）的预测值，将所有数据单元按非递减顺序排列（从预测精度最低到最高）；
协方差划分：从总单元数\(n\)开始，迭代计算 “前\(k\)个单元” 与 “前\(k-1\)个单元” 的累积协方差差值 —— 若差值为正（当前单元提升累积协方差），将其划入高协方差集合\(\overline{A}\)；若差值非正，划入低协方差集合\(A\)，直至\(k=2\)停止；
动态预测：对集合\(A\)（低\(C\)）采用完整集成模型预测（\(p_{ai}\)），对集合\(\overline{A}\)（高\(C\)）采用最优简化模型（\(a_1\)）预测，最终输出混合预测结果：

\[ \hat{p}_i = \begin{cases} p_{ai}, & i \in A \\ p_{a_1i}, & i \in \overline{A} \end{cases} \]

5. 实验验证结果

原研究通过三个实验验证混合模型的性能，覆盖分类与回归任务，关键指标结果如下（Giudici et al., 2026）：

分类任务（员工薪资预测）：使用含 473 个样本的员工数据集，预测薪资是否翻倍。混合模型的 Brier 分数为 0.1920（低于完整集成模型的 0.1953、最优简化模型的 0.1971），AUC 为 0.7783（高于所有对比模型）；
回归任务（比特币价格预测）：基于 2016 年 5 月至 2017 年 12 月的训练数据，预测 2018 年 1-4 月比特币日价格。4 个基础模型（GRU、LSTM、RBF、MLP）构建的混合模型 MSE 为 684724，低于完整集成模型的 1464435 与最优简化模型（GRU）的 712678；
复杂集成场景（加入堆叠模型）：在员工薪资数据集上新增堆叠集成模型（元学习器聚合随机森林与逻辑回归），混合模型仍保持最低 Brier 分数（0.1920）与最高 AUC（0.7785）。

6. 研究结论与未来方向

Giudici 等人（2026）的研究证实，混合集成模型通过动态利用协方差（\(C\)），在分类与回归任务中均能显著提升预测精度，且无需重新训练模型，具备模型无关性与实用性。未来研究可向三方向扩展：一是将方法适配更多评估指标（如非平衡数据的 F1 分数、多分类任务的 KL 散度）；二是探索动态场景下的协方差演变（如随时间变化的金融数据）；三是拓展至物理、金融、医疗等领域，结合领域特定损失函数优化性能。

参考文献

Giudici, P., Mariani, F., & Polinesi, G. (2026). Hybrid ensemble machine learning models. Physica A: Statistical Mechanics and its Applications, 681, 131083. https://doi.org/10.1016/j.physa.2025.131083

集成学习：基于 MSE 与协方差的预测策略优化

集成学习系列导航

1. 研究背景与核心目标

2. 核心定义与数学基础

（1）完整集成模型预测

（2）简化集成模型预测

（3）协方差（\(C\)）

3. 关键命题与 MSE 拆解逻辑

命题 1：完整集成模型的 MSE 构成

核心推论：协方差决定预测策略

4. 混合集成模型算法流程

5. 实验验证结果

6. 研究结论与未来方向

参考文献

集成学习系列导航

集成学习：基于 MSE 与协方差的预测策略优化

集成学习 系列导航

1. 研究背景与核心目标

2. 核心定义与数学基础

（1）完整集成模型预测

（2）简化集成模型预测

（3）协方差（\(C\)）

3. 关键命题与 MSE 拆解逻辑

命题 1：完整集成模型的 MSE 构成

核心推论：协方差决定预测策略

4. 混合集成模型算法流程

5. 实验验证结果

6. 研究结论与未来方向

参考文献

集成学习 系列导航

集成学习系列导航

集成学习系列导航