引言:多分类模型的“概率信任危机”
在图像识别、表格数据分类等任务中,我们常依赖模型输出的概率判断结果可靠性——比如“90%概率为猫”的预测,需对应90%的真实准确率,这一特性被称为“后验校准”。然而现代模型普遍面临困境:校准样本量远少于训练样本(\(n_{\mathrm{cal}} \ll n\)),简单校准方法(如温度缩放)表达不足,复杂方法(如无正则矩阵缩放)又易过拟合。Daniel Holzmueller等人2025年发表的《Structured Scaling for Multi-Class Calibration: Balancing Expressiveness and Overfitting》一文,提出结构化向量缩放(SVS,Structured Vector Scaling)与结构化矩阵缩放(SMS,Structured Matrix Scaling,Structured Vector Scaling)与结构化矩阵缩放(SMS,Structured Matrix Scaling)方法,为这一矛盾提供了高效解决方案。
一、研究背景:校准方法的“两难困境”
多分类后验校准的核心矛盾源于“偏差-方差权衡”:
简单方法局限:温度缩放仅通过单一参数\(\alpha\)全局调节概率,向量缩放依赖\(\mathrm{diag}(v)+b\)实现类内修正,但二者均缺乏类间交互机制,无法处理“狼与狗易混淆”这类关联类别误判问题;
复杂方法风险:无正则矩阵缩放引入大量参数,在校准样本稀缺时极易过拟合,导致新数据上校准效果大幅下降。
论文通过理论推导进一步指出,现有线性/仿射方法存在本质缺陷——在高斯类条件分布下,二分类最优校准函数为logit二次函数,多分类则需二次softmax模型,而传统方法均无法捕捉这类高复杂度关系。
二、核心方法:SVS(Structured Vector Scaling,结构化向量缩放)与SMS(Structured Matrix Scaling,结构化矩阵缩放)
论文的核心创新在于分层参数设计+自适应正则,让模型复杂度随校准样本量动态调整,实现数据少则简,数据足则繁。
1. 结构化向量缩放(SVS,Structured Vector Scaling):类内精细修正
SVS(Structured Vector Scaling,结构化向量缩放)包含三层核心参数,专注类内偏差修正,无类间交互模块:
\(\alpha\)(全局缩放):对所有类别原始logit分数执行统一线性调节,修正模型整体概率偏高或偏低的问题,对应传统温度缩放的核心功能;
\(v\)(对角偏差):为每个类别分配专属缩放系数,实现“一类一调”,解决单一类别预测偏差;
\(b\)(截距):对每个类别分数施加固定偏移,补偿类别天生存在的预测偏移。
2. 结构化矩阵缩放(SMS,Structured Matrix Scaling):类间关联捕捉
SMS(结构化矩阵缩放)在SVS基础上新增非对角交互项\(M\),成为处理类别混淆的关键,其核心校准函数为:
\(g_{\mathrm{SMS}}(x)=\mathrm{S}\left((\alpha I_k + \mathrm{diag}(v) + (11^T - I_k)\odot M) \mathrm{S}^{-1}(x) + b\right)\)
公式中各组件分工明确:
\(\mathrm{S}^{-1}(x)\):将模型输出概率转换为logit(原始分数),为修正提供基础;
\((11^T - I_k)\odot M\):通过掩码保留\(M\)的非对角项,仅作用于不同类别间,实现“类别A分数高则适度压低类别B分数”的交互调节,精准修正混淆问题;
\(\mathrm{S}\):将修正后的logit转换回0-1区间概率,确保输出符合概率规范。
3. 自适应正则:避免过拟合的核心保障
为防止复杂参数过拟合,论文设计分层正则化目标函数,通过参数数量与样本量的加权调节正则强度:
\(\min_{\alpha,b,v,M} \frac{1}{n_{\mathrm{cal}}}\sum_{i=1}^{n_{\mathrm{cal}}}\ell(g_{\mathrm{SMS}}(x_i),y_i) + \lambda_b \frac{k^\rho}{n_{\mathrm{cal}}^\tau}\|b\|_\delta + \lambda_v \frac{k^\rho}{n_{\mathrm{cal}}^\tau}\|v\|_\delta + \lambda_M \frac{(k(k-1))^\rho}{n_{\mathrm{cal}}^\tau}\|M\|_\delta\)
其中,非对角项\(M\)因参数数量最多(\(k(k-1)\)个),正则权重最大——校准样本稀缺时,\(M\)被正则化至0,模型退化为SVS;样本充足时,\(M\)正常发挥作用,提升模型表达能力。
三、实验验证:精度与效率双优
论文在68个表格数据集(1400+实验)及CIFAR-10/100、ImageNet等视觉任务中验证了方法有效性:
1. 精度表现
表格数据:SMS/SVS的logloss指标在所有数据集上均优于温度缩放、Torchcal向量缩放等对比方法,且无过拟合现象;
视觉任务:CIFAR-100中,Torchcal矩阵缩放过拟合导致logloss暴涨至28.982,而SMS对densenet40模型的logloss改进达-0.970,为最优;ImageNet上SVS对densenet161的logloss改进(-0.037)优于温度缩放(-0.035)。
2. 运算效率
基于SAGA算法与Numba即时编译优化,SMS运算速度比传统Dirichlet校准快10倍以上,且与Torchcal工具包性能相当,满足大规模任务需求。
四、实用价值:开箱即用的开源工具
论文团队开源了probmetrics工具包,提供SKlearn风格API,降低落地门槛:
核心模块:\(\mathrm{SVSCalibrator}\)(SVS,Structured Vector Scaling实现)、\(\mathrm{SMSCalibrator}\)(SMS,Structured Matrix Scaling实现);
正则支持:内置MCP、LASSO、Ridge等多种正则化选项,默认Ridge正则(实验验证稳定性最优);
使用流程:仅需通过fit()输入校准数据,调用predict_proba()即可获得校准后概率,适配主流分类模型。
五、总结
该研究通过“分层参数+自适应正则”的设计,突破了多分类校准的偏差-方差困境,其核心价值体现在三方面:理论上证明高复杂度校准函数的必要性,方法上实现复杂度动态调节,工程上提供高效开源工具。对于需依赖模型概率决策的场景(如医疗诊断、风险评估),SVS/SMS为提升预测可靠性提供了新路径。
参考文献
Holzmueller, D., Alber, M., von Oswald, J., & Mandt, S. (2025). Structured Scaling for Multi-Class Calibration: Balancing Expressiveness and Overfitting [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2511.03685