校准：类间关联捕捉

引言：多分类模型的“概率信任危机”

在图像识别、表格数据分类等任务中，我们常依赖模型输出的概率判断结果可靠性——比如“90%概率为猫”的预测，需对应90%的真实准确率，这一特性被称为“后验校准”。然而现代模型普遍面临困境：校准样本量远少于训练样本（\(n_{\mathrm{cal}} \ll n\)），简单校准方法（如温度缩放）表达不足，复杂方法（如无正则矩阵缩放）又易过拟合。Daniel Holzmueller等人2025年发表的《Structured Scaling for Multi-Class Calibration: Balancing Expressiveness and Overfitting》一文，提出结构化向量缩放（SVS，Structured Vector Scaling）与结构化矩阵缩放（SMS，Structured Matrix Scaling，Structured Vector Scaling）与结构化矩阵缩放（SMS，Structured Matrix Scaling）方法，为这一矛盾提供了高效解决方案。

一、研究背景：校准方法的“两难困境”

多分类后验校准的核心矛盾源于“偏差-方差权衡”：

简单方法局限：温度缩放仅通过单一参数\(\alpha\)全局调节概率，向量缩放依赖\(\mathrm{diag}(v)+b\)实现类内修正，但二者均缺乏类间交互机制，无法处理“狼与狗易混淆”这类关联类别误判问题；
复杂方法风险：无正则矩阵缩放引入大量参数，在校准样本稀缺时极易过拟合，导致新数据上校准效果大幅下降。

论文通过理论推导进一步指出，现有线性/仿射方法存在本质缺陷——在高斯类条件分布下，二分类最优校准函数为logit二次函数，多分类则需二次softmax模型，而传统方法均无法捕捉这类高复杂度关系。

二、核心方法：SVS（Structured Vector Scaling，结构化向量缩放）与SMS（Structured Matrix Scaling，结构化矩阵缩放）

论文的核心创新在于分层参数设计+自适应正则，让模型复杂度随校准样本量动态调整，实现数据少则简，数据足则繁。

1. 结构化向量缩放（SVS，Structured Vector Scaling）：类内精细修正

SVS（Structured Vector Scaling，结构化向量缩放）包含三层核心参数，专注类内偏差修正，无类间交互模块：

\(\alpha\)（全局缩放）：对所有类别原始logit分数执行统一线性调节，修正模型整体概率偏高或偏低的问题，对应传统温度缩放的核心功能；
\(v\)（对角偏差）：为每个类别分配专属缩放系数，实现“一类一调”，解决单一类别预测偏差；
\(b\)（截距）：对每个类别分数施加固定偏移，补偿类别天生存在的预测偏移。

2. 结构化矩阵缩放（SMS，Structured Matrix Scaling）：类间关联捕捉

SMS（结构化矩阵缩放）在SVS基础上新增非对角交互项\(M\)，成为处理类别混淆的关键，其核心校准函数为：

\(g_{\mathrm{SMS}}(x)=\mathrm{S}\left((\alpha I_k + \mathrm{diag}(v) + (11^T - I_k)\odot M) \mathrm{S}^{-1}(x) + b\right)\)

公式中各组件分工明确：

\(\mathrm{S}^{-1}(x)\)：将模型输出概率转换为logit（原始分数），为修正提供基础；
\((11^T - I_k)\odot M\)：通过掩码保留\(M\)的非对角项，仅作用于不同类别间，实现“类别A分数高则适度压低类别B分数”的交互调节，精准修正混淆问题；
\(\mathrm{S}\)：将修正后的logit转换回0-1区间概率，确保输出符合概率规范。

3. 自适应正则：避免过拟合的核心保障

为防止复杂参数过拟合，论文设计分层正则化目标函数，通过参数数量与样本量的加权调节正则强度：

\(\min_{\alpha,b,v,M} \frac{1}{n_{\mathrm{cal}}}\sum_{i=1}^{n_{\mathrm{cal}}}\ell(g_{\mathrm{SMS}}(x_i),y_i) + \lambda_b \frac{k^\rho}{n_{\mathrm{cal}}^\tau}\|b\|_\delta + \lambda_v \frac{k^\rho}{n_{\mathrm{cal}}^\tau}\|v\|_\delta + \lambda_M \frac{(k(k-1))^\rho}{n_{\mathrm{cal}}^\tau}\|M\|_\delta\)

其中，非对角项\(M\)因参数数量最多（\(k(k-1)\)个），正则权重最大——校准样本稀缺时，\(M\)被正则化至0，模型退化为SVS；样本充足时，\(M\)正常发挥作用，提升模型表达能力。

三、实验验证：精度与效率双优

论文在68个表格数据集（1400+实验）及CIFAR-10/100、ImageNet等视觉任务中验证了方法有效性：

1. 精度表现

表格数据：SMS/SVS的logloss指标在所有数据集上均优于温度缩放、Torchcal向量缩放等对比方法，且无过拟合现象；
视觉任务：CIFAR-100中，Torchcal矩阵缩放过拟合导致logloss暴涨至28.982，而SMS对densenet40模型的logloss改进达-0.970，为最优；ImageNet上SVS对densenet161的logloss改进（-0.037）优于温度缩放（-0.035）。

2. 运算效率

基于SAGA算法与Numba即时编译优化，SMS运算速度比传统Dirichlet校准快10倍以上，且与Torchcal工具包性能相当，满足大规模任务需求。

四、实用价值：开箱即用的开源工具

论文团队开源了probmetrics工具包，提供SKlearn风格API，降低落地门槛：

核心模块：\(\mathrm{SVSCalibrator}\)（SVS，Structured Vector Scaling实现）、\(\mathrm{SMSCalibrator}\)（SMS，Structured Matrix Scaling实现）；
正则支持：内置MCP、LASSO、Ridge等多种正则化选项，默认Ridge正则（实验验证稳定性最优）；
使用流程：仅需通过fit()输入校准数据，调用predict_proba()即可获得校准后概率，适配主流分类模型。

五、总结

该研究通过“分层参数+自适应正则”的设计，突破了多分类校准的偏差-方差困境，其核心价值体现在三方面：理论上证明高复杂度校准函数的必要性，方法上实现复杂度动态调节，工程上提供高效开源工具。对于需依赖模型概率决策的场景（如医疗诊断、风险评估），SVS/SMS为提升预测可靠性提供了新路径。

参考文献

Holzmueller, D., Alber, M., von Oswald, J., & Mandt, S. (2025). Structured Scaling for Multi-Class Calibration: Balancing Expressiveness and Overfitting [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2511.03685

校准系列导航

引言：多分类模型的“概率信任危机”

一、研究背景：校准方法的“两难困境”

二、核心方法：SVS（Structured Vector Scaling，结构化向量缩放）与SMS（Structured Matrix Scaling，结构化矩阵缩放）

1. 结构化向量缩放（SVS，Structured Vector Scaling）：类内精细修正

2. 结构化矩阵缩放（SMS，Structured Matrix Scaling）：类间关联捕捉

3. 自适应正则：避免过拟合的核心保障

三、实验验证：精度与效率双优

1. 精度表现

2. 运算效率

四、实用价值：开箱即用的开源工具

五、总结

参考文献

校准系列导航

校准：类间关联捕捉

校准 系列导航

引言：多分类模型的“概率信任危机”

一、研究背景：校准方法的“两难困境”

二、核心方法：SVS（Structured Vector Scaling，结构化向量缩放）与SMS（Structured Matrix Scaling，结构化矩阵缩放）

1. 结构化向量缩放（SVS，Structured Vector Scaling）：类内精细修正

2. 结构化矩阵缩放（SMS，Structured Matrix Scaling）：类间关联捕捉

3. 自适应正则：避免过拟合的核心保障

三、实验验证：精度与效率双优

1. 精度表现

2. 运算效率

四、实用价值：开箱即用的开源工具

五、总结

参考文献

校准 系列导航

校准系列导航

校准系列导航