1 min read

校准:类间关联捕捉(2)

研究背景

多分类任务中普遍存在长尾分布问题(如狼为少数类、狗为多数类),少数类因样本稀缺识别准确率低;同时类间存在天然的相关性差异(狼-狗高相关、狼-蛇低相关),这种相关性具备极高的利用价值——狼与狗特征相似度高、关联紧密,多数类狗的样本充足、预测能力强,可借助狗的预测能力辅助提升少数类狼的识别效果,而狼与蛇关联度低,难以通过蛇的预测信息为狼的识别提供有效支撑。传统方法对所有错分场景无差别处理,且仅利用全局缩放、全局截距优化,未挖掘这种类间关联及关联背后的辅助预测价值,导致少数类识别效果难以提升。

核心思路

针对多分类长尾的核心痛点,把类间关联作为新的可利用信息,尤其聚焦高相关类间的辅助预测价值,通过「类间相关性分层」区分少数类的错分难度:将少数类错分为高相关多数类的场景作为优化重点(如狼错分为狗,可借助狗的预测能力补救、优化收益高),对少数类错分为低相关类的场景降低优化优先级(如狼错分为蛇,难以借助蛇的预测信息补救、优化收益低);通过结构化设计挖掘并利用高相关类(如狗)的特征信息,依托其较强的预测能力,辅助提升少数类(如狼)的识别效果。

方法核心设计

该方法基于Softmax损失函数做改进,核心是类别专属的参数设计+类间关联的结构化矩阵调控,核心步骤/设计如下:

  1. 类别专属缩放系数+截距:摒弃传统的全局缩放、全局截距,为每个类别设计独立的缩放系数和截距——缩放系数用于压制头类的预测概率占比,避免头类特征覆盖少类;截距用于补偿少类的预测概率,解决少类概率偏低的问题。

  2. 类间相关性矩阵构建:量化所有类别间的相关性,形成类间相关性矩阵,矩阵中非对角元素代表两个不同类别的相关程度,为后续关联利用提供依据。

  3. 非对角交互掩码/交互项:基于相关性矩阵设计非对角交互掩码,其核心作用是筛选高相关类间关联、屏蔽低相关类间关联,重点保留狼与狗这类高相关类别的交互通道,屏蔽狼与蛇这类低相关类别的无效交互,确保少数类(狼)能高效捕捉高相关多数类(狗)的特征信息,借助狗的预测能力辅助自身识别,仅让少数类与高相关多数类之间的特征信息实现有效交互。

  4. 结构化矩阵缩放:结合相关性矩阵与非对角交互掩码,对模型的预测概率做结构化矩阵缩放,重点强化高相关类间的信息传递,让少数类(狼)能高效利用高相关多数类(狗)的特征信息和预测能力,借助狗的样本优势与预测准确性,弥补自身样本稀缺的短板;同时引入对角偏差修正类别自身的预测偏差,进一步提升少数类(狼)及多数类(狗)的预测准确性。

  5. 正则约束:通过复杂的正则化设计,避免因类间关联引入的过拟合问题,保证模型的泛化性(论文未做重点展开,博客中可简略带过)。

核心创新点

  1. 挖掘了新的优化信息:将类间关联及关联背后的辅助预测价值作为多分类长尾优化的有效信息,明确高相关多数类(狗)可借助自身预测能力辅助少数类(狼)识别,填补了传统方法仅利用全局缩放/截距、未挖掘类间关联价值的信息空白。

  2. 错分场景的分层优化:首次按类间相关性对少数类错分场景做分层,实现差异化优化,让计算资源聚焦在高收益的优化场景,提升优化效率。

  3. 参数设计的精细化:将全局的缩放系数、截距升级为类别专属,让参数设计更贴合不同类别(头类/少类)的实际预测需求,解决了全局参数对少类适配性差的问题。