校准：局部校准在不平衡学习中的应用

在机器学习实践中，“数据不平衡” 几乎是绕不开的难题 —— 当训练集中多数类样本（如电商平台的 “正常订单”）数量是少数类（如 “欺诈订单”）的数十甚至数百倍时，传统模型会天然偏向多数类，导致少数类的识别准确率显著降低。而 Wang 等人（2025）在《IEEE Transactions on Pattern Analysis and Machine Intelligence》发表的 CVS（Consistent Vector-Scaling）方法，正是针对这一痛点，通过少数类占比与置信度校准项的深度协同优化，为不平衡学习提供了新的解决方案。

一、传统方法的局限：对少数类的两种忽视

此前，不平衡学习方法主要分为数据导向、模块导向和损失导向三类，其中损失导向方法因改动小被广泛应用，但存在 “全局分析” 缺陷：

全局校准失效：模型整体校准良好时，少数类仍存在严重偏差。如 CIFAR-100 LT 数据集上，少样本类期望校准误差（ECE）达 45.5%，远高于多样本类的 5.3% ，导致少数类预测置信度虚高。
泛化边界粗糙：传统方法用全局 Lipschitz 常数约束损失，忽略类别差异。少数类因样本稀缺，logit 波动大，训练效果难以迁移到测试集。

少数类受 “样本占比低 + 置信度校准差” 双重制约，传统方法未有效解决。

二、CVS 方法的核心：用 “局部化属性” 解决

Wang 等人（2025）提出两钟 “局部化属性”，将少数类占比与置信度校准深度绑定：

1. 局部校准：让少数类的置信度提升

CVS 打破全局校准假设，为每个类别定制校准规则，关联少数类占比与置信度偏差：

假设 I：\(\mathbb{P}[y|x] \propto \kappa_y^+ \cdot \text{softmax}(f(x)_y)\)，\(\kappa_y^+\)由 “准确率 - 置信度” 回归得出，值越小说明少数类置信度偏差越大，需更多调整。
假设 II：\(\mathbb{P}[y|x] \propto \kappa_y^* \cdot f(x)_y\)，\(\kappa_y^*\)通过 “准确率 - logit” 回归估计，确保少数类获得充足特征学习权重。

基于这两个假设，CVS 设计了两类损失函数：

乘性调整损失（MLA，训练前期用）：\(L_{MLA}(f(x), y) = L_{CE}\left(f(x)_y \cdot \frac{\pi_y^\gamma}{\kappa_y^*}, y\right)\)。通过\(\pi_y^\gamma\)（\(\gamma\)为超参数）平衡少数类低占比的影响，再用\(\kappa_y^*\)修正置信度偏差，强化少数类特征学习。
加性调整损失（CLA，训练后期用）：\(L_{CLA}(f(x), y) = L_{CE}\left(f(x)_y + \tau \cdot \log\left(\frac{\pi_y}{\kappa_y^+}\right), y\right)\)。\(\pi_y\)越小、\(\kappa_y^+\)越小，给少数类的 logit 加分量越多，直接提升其预测置信度（Wang et al., 2025）。

2. 局部 Lipschitz 连续性：稳定少数类的泛化性能

为解决少数类 logit 波动大的问题，CVS 提出 “类别专属 Lipschitz 常数”（\(\mu_y\)），其定义为：

\(|L(f, y) - L(f', y)| \leq \mu_y \cdot \|f(x) - f'(x)\| \quad (x \in S_y)\)

其中，\(S_y\)为类别\(y\)的样本子集。对少数类而言，\(\mu_y\)取值更小，严格约束其 logit 的变化范围 —— 这就像给少数类的 “预测分数” 装了一个 “减震器”，防止因样本稀缺导致的泛化性能骤降（Wang et al., 2025）。

三、实践效果：少数类准确率显著提升

Wang 等人（2025）在 ResNet、ViT 等模型，以及 CIFAR-LT、ImageNet-LT、iNaturalist 等数据集上验证了 CVS 的有效性：

在 CIFAR-100 LT 数据集（不平衡比 100:1，少数类占比仅 1%）上，CVS+ADRW（ADRW 为对齐重加权策略，\(\alpha_y \propto \pi_y^{-\nu}\)）的少样本类准确率达 37.8%，优于未深度绑定占比与置信度的 VS+TLA+ADRW 方法（37.0%）。
在 ImageNet-LT 数据集（少数类占比最低仅 0.4%）上，CVS 方法的整体平衡准确率较此前工作提升 0.6 个百分点，少样本类准确率提升 1.8 个百分点。

这些结果证明，只有同时锚定少数类的 “样本占比” 与 “置信度”，才能真正解决数据不平衡问题 —— 这也让 CVS 方法在医疗影像（如罕见病灶识别）、安防监控（如稀有行为检测）等对少数类识别要求高的场景中，具备了极强的应用价值。

Wang, Z., Xu, Q., Yang, Z., Xu, Z., Zhang, L., Cao, X., & Huang, Q. (2025). A unified perspective for loss-oriented imbalanced learning via localization. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2025.3609440

校准：局部校准在不平衡学习中的应用

校准系列导航

一、传统方法的局限：对少数类的两种忽视

二、CVS 方法的核心：用 “局部化属性” 解决

1. 局部校准：让少数类的置信度提升

2. 局部 Lipschitz 连续性：稳定少数类的泛化性能

三、实践效果：少数类准确率显著提升

校准系列导航

校准：局部校准在不平衡学习中的应用

校准 系列导航

一、传统方法的局限：对少数类的两种忽视

二、CVS 方法的核心：用 “局部化属性” 解决

1. 局部校准：让少数类的置信度提升

2. 局部 Lipschitz 连续性：稳定少数类的泛化性能

三、实践效果：少数类准确率显著提升

校准 系列导航

校准系列导航

校准系列导航