1. 研究背景与核心目标
在集成机器学习领域,传统模型(如随机森林、梯度提升)通过平均多模型预测或迭代纠错提升精度,但普遍存在 “对所有数据单元采用统一预测策略” 的局限 —— 未考虑模型间预测的一致性差异,导致部分场景下精度未达最优(Giudici, P., Mariani, F., & Polinesi, G., 2026)。针对这一问题,Giudici 等人(2026)提出混合集成机器学习模型,核心目标是在无需重新训练模型的前提下,利用不同模型预测间的协方差(记为\(C\))动态调整预测方式,使模型在分类与回归任务中均优于传统集成模型与单一最优模型。
2. 核心定义与数学基础
要理解该混合模型,需先明确三个关键定义,所有符号与公式均源自原研究(Giudici et al., 2026):
(1)完整集成模型预测
完整集成模型通过对\(M\)个基础模型的预测值加权平均生成结果,公式为:
\(p_{ai} = \sum_{j=1}^{M} w_j p_{ji}\)
其中,\(w_j \geq 0\)且\(\sum_{j=1}^{M} w_j = 1\)(\(w_j\)为第\(j\)个基础模型的权重),\(p_{ji}\)代表第\(j\)个模型对第\(i\)个数据单元的预测值。该定义是传统集成学习 “取平均” 策略的数学表达(Giudici et al., 2026)。
(2)简化集成模型预测
研究将\(M\)个基础模型划分为两组(记为\(a_1\)和\(a_2\)),分别计算每组的加权平均预测,公式为:
\(p_{a_1i} = \frac{1}{W} \sum_{j=1}^{M_1} w_j p_{ji}, \quad p_{a_2i} = \frac{1}{1-W} \sum_{j=M_1+1}^{M} w_j p_{ji}\)
其中,\(M_1\)为第一组模型数量(\(0 < M_1 < M\)),\(W = \sum_{j=1}^{M_1} w_j\)(第一组模型的权重和)。原研究假设\(a_1\)为 “最优简化模型”,即其均方误差(\(\mathrm{MSE}_{a_1}\))小于第二组(\(\mathrm{MSE}_{a_1} \leq \mathrm{MSE}_{a_2}\))(Giudici et al., 2026)。
(3)协方差(\(C\))
协方差\(C\)指两组简化集成模型(\(a_1\)与\(a_2\))预测值的样本协方差,用于量化两模型预测的一致性 ——\(C\)越小,两模型预测越同步;\(C\)越大,两模型预测差异越显著(Giudici et al., 2026)。
3. 关键命题与 MSE 拆解逻辑
原研究的核心突破的是通过命题 1拆解完整集成模型的 MSE,揭示协方差对预测精度的影响,这也是混合策略的数学依据(Giudici et al., 2026)。
命题 1:完整集成模型的 MSE 构成
完整集成模型的 MSE(记为\(\mathrm{MSE}_a\))可分解为两组简化模型的 MSE 与协方差的函数,公式为:
\(\mathrm{MSE}_a = W^2 \mathrm{MSE}_{a_1} + (1-W)^2 \mathrm{MSE}_{a_2} + 2W(1-W)C\)
其中,\(\mathrm{MSE}_{a_1}\)和\(\mathrm{MSE}_{a_2}\)分别为两组简化模型的 MSE,\(W\)为第一组模型的权重和,\(C\)为两组模型预测的协方差。
核心推论:协方差决定预测策略
从命题 1 的公式可直接推导两类场景的最优策略(Giudici et al., 2026):
当\(C\)较大时:公式中最后一项(\(2W(1-W)C\))为正向增量,会显著抬高\(\mathrm{MSE}_a\),此时完整集成模型的精度低于最优简化模型(\(a_1\)),应选择\(a_1\)进行预测;
当\(C\)较小时:最后一项增量微弱,\(\mathrm{MSE}_a\)主要由前两项(两组简化模型的加权 MSE)决定,且整体小于\(\mathrm{MSE}_{a_1}\),此时应采用完整集成模型 “取平均” 的策略。
4. 混合集成模型算法流程
基于上述推论,原研究设计了三步算法构建混合集成模型,实现动态预测策略选择(Giudici et al., 2026):
数据排序:根据最优简化模型(\(a_1\))的预测值,将所有数据单元按非递减顺序排列(从预测精度最低到最高);
协方差划分:从总单元数\(n\)开始,迭代计算 “前\(k\)个单元” 与 “前\(k-1\)个单元” 的累积协方差差值 —— 若差值为正(当前单元提升累积协方差),将其划入高协方差集合\(\overline{A}\);若差值非正,划入低协方差集合\(A\),直至\(k=2\)停止;
动态预测:对集合\(A\)(低\(C\))采用完整集成模型预测(\(p_{ai}\)),对集合\(\overline{A}\)(高\(C\))采用最优简化模型(\(a_1\))预测,最终输出混合预测结果:
\[ \hat{p}_i = \begin{cases} p_{ai}, & i \in A \\ p_{a_1i}, & i \in \overline{A} \end{cases} \]
5. 实验验证结果
原研究通过三个实验验证混合模型的性能,覆盖分类与回归任务,关键指标结果如下(Giudici et al., 2026):
分类任务(员工薪资预测):使用含 473 个样本的员工数据集,预测薪资是否翻倍。混合模型的 Brier 分数为 0.1920(低于完整集成模型的 0.1953、最优简化模型的 0.1971),AUC 为 0.7783(高于所有对比模型);
回归任务(比特币价格预测):基于 2016 年 5 月至 2017 年 12 月的训练数据,预测 2018 年 1-4 月比特币日价格。4 个基础模型(GRU、LSTM、RBF、MLP)构建的混合模型 MSE 为 684724,低于完整集成模型的 1464435 与最优简化模型(GRU)的 712678;
复杂集成场景(加入堆叠模型):在员工薪资数据集上新增堆叠集成模型(元学习器聚合随机森林与逻辑回归),混合模型仍保持最低 Brier 分数(0.1920)与最高 AUC(0.7785)。
6. 研究结论与未来方向
Giudici 等人(2026)的研究证实,混合集成模型通过动态利用协方差(\(C\)),在分类与回归任务中均能显著提升预测精度,且无需重新训练模型,具备模型无关性与实用性。未来研究可向三方向扩展:一是将方法适配更多评估指标(如非平衡数据的 F1 分数、多分类任务的 KL 散度);二是探索动态场景下的协方差演变(如随时间变化的金融数据);三是拓展至物理、金融、医疗等领域,结合领域特定损失函数优化性能。
参考文献
Giudici, P., Mariani, F., & Polinesi, G. (2026). Hybrid ensemble machine learning models. Physica A: Statistical Mechanics and its Applications, 681, 131083. https://doi.org/10.1016/j.physa.2025.131083