长尾分布是视觉识别等领域的核心数据特征,类间样本数量的极端不平衡,导致传统联合训练模型过度偏向样本充足的头类,而在样本稀缺的尾类上性能显著下降。Kang等人(2020)提出的“解耦表征学习与分类器学习”框架,为这一问题提供了简洁且高效的解决方案,其核心思路与后续延伸应用,共同构成了长尾任务的完整技术路径。
一、核心框架:解耦学习的底层逻辑
传统方法多采用表征与分类器联合训练的模式,难以区分性能提升源于表征质量还是决策边界调整。Kang等人(2020)重构训练范式,将训练过程拆分为两个独立阶段,明确各环节的优化目标。
1. 表征学习:朴素采样的意外优势
表征学习的核心是获取泛化性强的特征,该阶段基于统一采样公式设计策略:
\(p_j = \frac{n_j^q}{\sum_{i=1}^C n_i^q}\)
其中, \(n_j\) 为类 \(j\) 的样本数量, \(C\) 为总类数, \(q \in [0,1]\) 为调节参数。通过实例平衡采样( \(q=1\) ,按样本数比例采样)、类平衡采样( \(q=0\) ,每类被选概率均等)等四种策略对比,研究得出关键发现:实例平衡采样这一最朴素的方式,能学习到最优且泛化性最强的表征(Kang et al., 2020)。这一结论颠覆了需复杂采样平衡数据分布才能获得高质量表征的传统认知,证明数据不平衡对表征学习的负面影响并非不可避免。
2. 分类器学习:决策边界的精准校准
分类器学习的核心是修正头类主导的决策偏差,通过四种方法实现边界平衡:
τ-归一化:直接调整分类器权重范数,公式为 \(\tilde{w}_i = \frac{w_i}{||w_i||^\tau}\) ( \(w_i\) 为类 \(i\) 的权重向量, \(\tau \in (0,1)\) 为温度参数);
分类器重训练(cRT):固定表征,以类平衡采样重新训练线性分类器;
最近类均值(NCM):基于类特征均值的余弦相似度分类,无需额外训练;
可学习权重缩放(LWS):固定表征与权重,仅学习缩放因子。
这些方法的核心目标的是平衡头类与尾类的权重范数差异,避免头类因样本充足形成过宽的决策边界,从而保障尾类的识别性能(Kang et al., 2020)。
二、框架延伸:解耦逻辑的多场景应用
Kang等人(2020)的解耦思路具有极强的通用性,可结合不同技术路径拓展至更多实践场景。
1. 两阶段训练:代理任务预训练+类平衡微调
将解耦逻辑与预训练-微调范式结合,形成更贴合实际任务的流程:
第一阶段:利用全量样本(含所有头类、尾类样本)进行代理任务预训练,规避简单分类损失。可选对比学习(采用InfoNCE损失,构建样本增强视图的正负对)或重构任务(采用MSE损失,通过编码器-解码器恢复带噪输入),核心是学习通用特征;
第二阶段:从大量负样本中采样固定数量(如33个),与正样本组成类平衡子集,微调预训练特征提取器与新增分类头。采样过程可每epoch重新执行,提升数据多样性,避免过拟合。
2. 关联规则:特征提纯与分类器解耦
关联规则挖掘与分类器训练的结合,本质是解耦逻辑的另一种体现:
特征表示阶段:采用Apriori、FP-Growth等算法,挖掘特征间的隐性关联(如“特征A与特征B共现时,正样本概率显著提升”),筛选冗余、无效特征,实现特征提纯;
分类器学习阶段:基于筛选后的关键特征训练模型,减少噪声干扰,让分类器更高效地学习决策边界。这一过程与“先优化表征、再聚焦分类”的解耦核心完全一致。
三、性能验证:基准数据集的SOTA突破
Kang等人(2020)在三大长尾基准数据集上验证了框架的有效性:
ImageNet-LT(1000类,每类5-1280张样本):ResNeXt-152骨干网络下,LWS方法准确率达53.3%;
iNaturalist 2018(8142类,自然长尾分布):ResNet-152骨干网络训练200epoch后,τ-归一化方法准确率达72.5%,且头、中、尾类性能均衡;
Places-LT(365类,每类5-4980张样本):ResNet-152骨干网络下,τ-归一化方法准确率达37.9%,中、尾类性能提升显著。
这些结果表明,解耦框架无需复杂损失函数或记忆模块,即可超越传统联合训练方法,成为长尾识别的高效范式(Kang et al., 2020)。
参考文献
Kang, B., Xie, S., Rohrbach, M., Yan, Z., Gordo, A., Feng, J., & Kalantidis, Y. (2020). Decoupling representation and classifier for long-tailed recognition. Proceedings of the International Conference on Learning Representations. https://arxiv.org/abs/1910.09217