1 min read

校准:邻近信息辅助抗标签噪声

从人工标签标注到深度学习鲁棒训练,数据标注的非完美性始终是CV领域的核心问题之一。在大规模数据集构建过程中,人工标注、众包采集等方式难免产生标签噪声,深度神经网络的记忆效应会让模型过度拟合这类噪声样本,导致泛化能力下降。为解决这一问题,Sun等(2025)提出了Jo-SNC方法,其核心思路极为简洁,就是利用邻近样本进行交叉比较,以此判断样本标签的可靠性,实现对标签噪声的有效对抗(Sun et al., 2025)。

一、标签噪声:深度学习的常见痛点

深度神经网络的性能依赖高精度标注数据,而实际应用中,为降低成本,众包、网络采集等方式获取的数据往往存在标签噪声,这些噪声会让模型学错特征,影响最终效果。现有抗噪声方法多存在计算复杂、判断不准等问题,而Jo-SNC方法凭借简单直接的邻近信息利用思路,有效解决了这一痛点(Sun et al., 2025)。

二、Jo-SNC方法核心:邻近样本交叉比较判标签

Jo-SNC方法的核心逻辑十分简单,无需复杂的模块设计,核心就是通过邻近样本的交叉比较,确认样本标签的可靠性。具体而言,就是判断两个关键条件,满足条件则认为样本标签可靠(清洁样本),反之则视为噪声样本(Sun et al., 2025)。

第一,样本的预测标签与真实标签足够相近,说明模型对该样本的预测较为准确;第二,关于“邻居”的判定可进一步精细,原文默认以样本特征x的相近性作为邻居筛选标准,而结合拓扑学中的联通图概念(这是个人额外启发),我们可引入图神经网络的思路,将邻居定义为有实际边关系的样本——即通过构建样本间的联通图,仅将存在明确关联边、具有真实关联关系的样本视为有效邻居,而非单纯依赖特征x的表面相近。这种基于联通图边关系的邻居判定,能更精准地筛选出真正具有关联性的样本,通过这类有实际关联的邻居进行交叉比较,可进一步提升标签可靠性确认的精准度。简单来说,就是看“自身预测准不准”和“有明确关联的邻居像不像”,两者都满足,就确信这个样本的标签是可靠的,以此筛选出清洁样本,规避噪声样本的影响(Sun et al., 2025)。

三、实验验证:简单思路实现优异性能

为验证这一思路的有效性,研究在2个合成噪声数据集与6个真实噪声数据集上开展了实验,对比了数十种主流抗噪声方法。结果显示,Jo-SNC方法凭借邻近样本交叉比较的简单思路,在所有数据集上均展现出优于主流方法的性能,尤其在高噪声场景下优势明显(Sun et al., 2025)。消融研究也进一步证实,邻近样本交叉比较的思路,是该方法实现抗噪声性能提升的核心(Sun et al., 2025)。

四、总结与未来方向

Jo-SNC方法的核心价值,在于用简单直接的思路解决了标签噪声问题——无需复杂设计,仅通过邻近样本交叉比较,确认预测标签与真实标签相近、样本分布与邻近样本相似,就能准确筛选清洁样本、规避噪声。该方法的局限在于长尾噪声数据集上性能会下降,未来研究将重点优化长尾场景下邻近信息的利用方式(Sun et al., 2025)。

参考文献

Sun, Z., Yao, Y., Liu, T., Li, Z., Shen, F., & Tang, J. (2025). Jo-SNC: Combating noisy labels through fostering self- and neighbor-consistency. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2025.3646737