1 min read

校准:局部校准在不平衡学习中的应用

在机器学习实践中,“数据不平衡” 几乎是绕不开的难题 —— 当训练集中多数类样本(如电商平台的 “正常订单”)数量是少数类(如 “欺诈订单”)的数十甚至数百倍时,传统模型会天然偏向多数类,导致少数类的识别准确率显著降低。而 Wang 等人(2025)在《IEEE Transactions on Pattern Analysis and Machine Intelligence》发表的 CVS(Consistent Vector-Scaling)方法,正是针对这一痛点,通过少数类占比与置信度校准项的深度协同优化,为不平衡学习提供了新的解决方案。

一、传统方法的局限:对少数类的两种忽视

此前,不平衡学习方法主要分为数据导向、模块导向和损失导向三类,其中损失导向方法因改动小被广泛应用,但存在 “全局分析” 缺陷:

  1. 全局校准失效:模型整体校准良好时,少数类仍存在严重偏差。如 CIFAR-100 LT 数据集上,少样本类期望校准误差(ECE)达 45.5%,远高于多样本类的 5.3% ,导致少数类预测置信度虚高。

  2. 泛化边界粗糙:传统方法用全局 Lipschitz 常数约束损失,忽略类别差异。少数类因样本稀缺,logit 波动大,训练效果难以迁移到测试集。

少数类受 “样本占比低 + 置信度校准差” 双重制约,传统方法未有效解决。

二、CVS 方法的核心:用 “局部化属性” 解决

Wang 等人(2025)提出两钟 “局部化属性”,将少数类占比与置信度校准深度绑定:

1. 局部校准:让少数类的置信度提升

CVS 打破全局校准假设,为每个类别定制校准规则,关联少数类占比与置信度偏差:

  • 假设 I\(\mathbb{P}[y|x] \propto \kappa_y^+ \cdot \text{softmax}(f(x)_y)\)\(\kappa_y^+\)由 “准确率 - 置信度” 回归得出,值越小说明少数类置信度偏差越大,需更多调整。

  • 假设 II\(\mathbb{P}[y|x] \propto \kappa_y^* \cdot f(x)_y\)\(\kappa_y^*\)通过 “准确率 - logit” 回归估计,确保少数类获得充足特征学习权重。

基于这两个假设,CVS 设计了两类损失函数:

  • 乘性调整损失(MLA,训练前期用)\(L_{MLA}(f(x), y) = L_{CE}\left(f(x)_y \cdot \frac{\pi_y^\gamma}{\kappa_y^*}, y\right)\)。通过\(\pi_y^\gamma\)\(\gamma\)为超参数)平衡少数类低占比的影响,再用\(\kappa_y^*\)修正置信度偏差,强化少数类特征学习。

  • 加性调整损失(CLA,训练后期用)\(L_{CLA}(f(x), y) = L_{CE}\left(f(x)_y + \tau \cdot \log\left(\frac{\pi_y}{\kappa_y^+}\right), y\right)\)\(\pi_y\)越小、\(\kappa_y^+\)越小,给少数类的 logit 加分量越多,直接提升其预测置信度(Wang et al., 2025)。

2. 局部 Lipschitz 连续性:稳定少数类的泛化性能

为解决少数类 logit 波动大的问题,CVS 提出 “类别专属 Lipschitz 常数”(\(\mu_y\)),其定义为:

\(|L(f, y) - L(f', y)| \leq \mu_y \cdot \|f(x) - f'(x)\| \quad (x \in S_y)\)

其中,\(S_y\)为类别\(y\)的样本子集。对少数类而言,\(\mu_y\)取值更小,严格约束其 logit 的变化范围 —— 这就像给少数类的 “预测分数” 装了一个 “减震器”,防止因样本稀缺导致的泛化性能骤降(Wang et al., 2025)。

三、实践效果:少数类准确率显著提升

Wang 等人(2025)在 ResNet、ViT 等模型,以及 CIFAR-LT、ImageNet-LT、iNaturalist 等数据集上验证了 CVS 的有效性:

  • 在 CIFAR-100 LT 数据集(不平衡比 100:1,少数类占比仅 1%)上,CVS+ADRW(ADRW 为对齐重加权策略,\(\alpha_y \propto \pi_y^{-\nu}\))的少样本类准确率达 37.8%,优于未深度绑定占比与置信度的 VS+TLA+ADRW 方法(37.0%)。

  • 在 ImageNet-LT 数据集(少数类占比最低仅 0.4%)上,CVS 方法的整体平衡准确率较此前工作提升 0.6 个百分点,少样本类准确率提升 1.8 个百分点。

这些结果证明,只有同时锚定少数类的 “样本占比” 与 “置信度”,才能真正解决数据不平衡问题 —— 这也让 CVS 方法在医疗影像(如罕见病灶识别)、安防监控(如稀有行为检测)等对少数类识别要求高的场景中,具备了极强的应用价值。

Wang, Z., Xu, Q., Yang, Z., Xu, Z., Zhang, L., Cao, X., & Huang, Q. (2025). A unified perspective for loss-oriented imbalanced learning via localization. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2025.3609440