任务背景与现存问题
领域泛化任务的目标,是在多个已知分布的源域数据上训练模型,使模型在分布不同的未见目标域上保持稳定的分类性能。CLIP(Contrastive Language-Image Pre-training)这类大规模视觉语言预训练模型,具备较强的零样本迁移能力,是当前领域泛化任务的主流基础模型。
当前该方向存在两个核心待解决问题,也是限制模型落地性能的关键瓶颈。第一,真实场景的视觉数据普遍存在标签歧义现象,即单张图像包含多个类别的语义信息,而常规标注使用的one-hot硬标签仅能覆盖部分语义,会导致模型学习到错误的决策边界,降低分布外数据的处理性能。第二,不同源域的数据存在明显的分布偏移,比如图像风格、拍摄环境、采集设备的差异,常规训练方式用统一规则适配所有场景,会导致模型在特定场景下的适配能力不足,同时对预训练模型的全量微调,会破坏模型预训练阶段学习到的通用特征,削弱模型的零样本迁移能力。现有方法大多只针对分布偏移做优化,普遍忽视了标签歧义带来的基础影响。
LADA方法的核心设计
LADA(Label Disambiguation and Domain-Aware Learning)是针对上述两个核心问题提出的两阶段框架,全程冻结CLIP主干网络,通过两个前后耦合的核心模块,先完成标签的补充校准,再实现分场景的分层适配,前序模块的输出为后序模块提供校准后的高质量输入。
第一阶段:标签补充与校准模块
该模块的核心目标,是解决原始硬标签的歧义问题,为模型训练提供更完整、更准确的监督信号。
模块使用参数量更大、零样本分类能力更强的ViT-H-14 CLIP模型作为辅助标注工具,为源域图像生成包含多类别语义的软标签,补充原始硬标签未覆盖的图像语义信息。模块通过双标注者投票机制,融合数据集原始硬标签与模型生成的软标签:当两者预测的最高概率类别一致时,保留原始硬标签并做加权处理;当两者预测结果不一致时,按固定权重平衡两类标签,生成融合后的校准标签。同时,模块会降低置信度过低的样本权重,减少模糊样本对模型训练的干扰。
第二阶段:场景分层适配模块
该模块的核心目标,是基于校准后的高质量标签,针对不同源域的分布特征做分层适配,解决跨场景的分布偏移问题,全程不修改CLIP主干网络的参数。模块通过两个轻量化的分层组件,为不同场景设置独立的适配规则,避免用统一逻辑处理所有场景带来的适配不足问题。
第一个组件为场景专属提示词分层。为每个源域设置独立的可学习领域token,与固定的类别词嵌入拼接,生成对应源域的专属提示词,通过CLIP冻结的文本编码器生成适配对应场景的文本嵌入。训练过程仅优化领域token与少量可学习文本token,单组token参数量在千级别,每个场景的提示词相互独立,可单独调整。
第二个组件为场景专属原型分层。基于校准后的软标签,计算每个源域对应每个类别的特征原型,用该原型初始化对应场景的投影头权重。训练过程中,每个场景的投影头与对应场景的提示词联合优化,基于图文融合的计算结果调整参数,适配不同源域的特征分布,实现不同场景的分层适配。
实验验证与工程价值
该方法在5个主流领域泛化基准数据集上验证,基于ResNet-50 CLIP主干平均精度73.2%(相对基线提升5.7%),ViT-B-16 CLIP主干平均精度78.9%;消融实验验证标签补充与场景分层模块的正向叠加效应,超参数鲁棒性强,可训练参数量约0.35M,训练效率与标准线性探针持平。
两大核心模块独立设计,可接入现有模型管线,无需重训主干,支持并行开发与单独调整,降低迭代和试错成本,适配工业落地需求。
总结
LADA框架通过标签补充校准与场景分层适配的两阶段设计,解决领域泛化中的标签歧义与分布偏移问题,冻结主干网络且轻量化,实现分类性能提升,为预训练模型跨域适配提供数据优化与分场景适配的思路。
参考文献
Xiao, Z., Wang, H., Ye, Y., Ye, W., Chen, H., Chen, G., Zhao, J., & Ying, R. (2026). LADA: Label Disambiguation and Domain-Aware Learning for Domain Generalization. Machine Learning, 115, 53. https://doi.org/10.1007/s10994-025-06977-w