2 min read

利用 Vendi 信息增益革新图像标注:一种高效主动学习策略

在生态研究领域,相机陷阱(camera trap)已然成为监测生物多样性的关键技术手段(Nguyen & Dieng, 2025)。通过动作传感器、红外探测器等触发机制,相机陷阱能够捕捉到野生动物在自然状态下的珍贵影像。这些影像为科学家了解物种分布、行为模式以及种群动态提供了第一手资料,在寻找稀有物种、监督狩猎活动等方面发挥着不可替代的作用。

但随着相机陷阱的广泛应用,海量图像数据的处理和分析成为新的挑战。尤其是物种标注工作,耗费大量人力、物力和时间。传统机器学习算法,特别是深度学习在图像分类任务中的应用,高度依赖高质量的标注数据(Nguyen & Dieng, 2025)。但在生态场景中,标签稀缺、标注成本高昂,严重制约了机器学习技术在生态研究中的有效应用。

应对挑战:Vendi 信息增益(VIG)主动学习策略

为解决这一难题,Nguyen 和 Dieng(2025)提出了一种创新的主动学习策略 ——Vendi 信息增益(Vendi Information Gain,VIG)。该策略打破传统仅关注单样本预测不确定性的局限,从信息论角度出发,通过量化标注候选图像后整个数据集预测不确定性的降低程度,同时兼顾数据的信息量与多样性,为生态图像标注提供了一种高效解决方案。

VIG 的技术原理

  1. 基于 Vendi Score(VS)衡量数据多样性:Vendi Score(VS)是 VIG 的基础,用于量化数据点集合的多样性(Nguyen & Dieng, 2025)。首先通过核函数计算数据点间的相似度,进而生成核矩阵。核矩阵如同 “数据相似性的汇总表”,其中每个数字代表对应两个数据点的相似程度(Nguyen & Dieng, 2025)。从核矩阵中计算得出的归一化特征值,按照特定公式VSq(D;k)=exp(11qlog(i=1n(λ¯i)q))进行处理,得到 VS 分数。分数越高,表明数据多样性越大(Nguyen & Dieng, 2025)。

  2. VIG 的定义与计算:VIG 定义为标注候选图像前后,数据集 Vendi 熵的差值(Nguyen & Dieng, 2025)。其中,Vendi 熵是 VS 的对数形式,用于衡量不确定性,公式为HV(D;q)=11qlog(i=1n(λ¯i)q)(Nguyen & Dieng, 2025)。数学表达式为VIG(θ,y;q)=HV(D;q)Ey[HV(Dy;q)],表示在已知图像标签y的条件下,预测整个数据库标签向量θ的不确定性减少量(Nguyen & Dieng, 2025)。简单来说,如果标注某张图片后,整个数据集标签的 Vendi 熵显著减小,意味着该图片能大幅降低模型对所有图片判断的不确定性,具有较高的 VIG 分数,更值得被标注(Nguyen & Dieng, 2025)。

  3. 借助 MC dropout 神经网络生成概率预测:为计算 VIG 分数,研究借助 MC dropout 神经网络(Nguyen & Dieng, 2025)。具体过程为,先利用训练好的 dropout 神经网络为候选数据点采样标签,再用这些虚拟标签重新训练模型,最后对整个未标记图像池进行预测采样。通过这些采样预测来量化 Vendi 熵的减少,从而筛选出具有最高信息增益的候选数据点用于标注(Nguyen & Dieng, 2025)。

实验验证:VIG 在 Snapshot Serengeti 数据集上的卓越表现

实验设计

  1. 数据集:选用 Snapshot Serengeti 相机陷阱数据集,提取其中 5 个主要物种(Paca、赤鹿、红松鼠、狍子、白鼻浣熊)的 7231 张图像,并按 8:2 划分为主动学习图像池与测试集(Nguyen & Dieng, 2025)。

  2. 对比基线:与 Max entropy、BALD、Mean stddev、BatchBALD 等传统主动学习策略进行对比(Nguyen & Dieng, 2025)。

  3. 实验设置:每次迭代选择 20 张图像进行标注,直至标注数量达到 500 张。同时,测试不同批次大小(10、20、50)与 VIG 超参数 q(0.1、0.5、1、2 等)对结果的影响(Nguyen & Dieng, 2025)。

实验结果

  1. 标注效率与准确率:VIG 展现出惊人的标注效率。仅需 3% 的数据(约 150 张)即可达到 75% 的准确率,而传统基线方法则需要 10% 以上的数据(Nguyen & Dieng, 2025)。当标注数据达到 10%(约 500 张)时,VIG 的准确率高达 88%,比最优基线方法高出 12%。在全量数据(5585 张)训练下,模型准确率可达 99%(Nguyen & Dieng, 2025)。

  2. 多指标表现:在精确率(0.888)、F1 分数(0.883)、交叉熵损失(0.402)等多个评估指标上,VIG 均显著优于所有对比的基线方法(Nguyen & Dieng, 2025)。

  3. 数据多样性:通过 VS 衡量发现,VIG 所选数据在特征空间(图像嵌入层特征)的多样性更高。不过,在 “类别标签分布多样性”(用香农熵衡量)方面,各方法表现相近(Nguyen & Dieng, 2025)。

  4. 鲁棒性:不同批次大小(10、20、50)与超参数 q(0.1 - 2)的实验结果表明,VIG 性能稳定,基本不受参数变化的显著影响(Nguyen & Dieng, 2025)。

VIG 的优势、局限性与未来展望

优势

  1. 模型无关性与广泛适用性:VIG 不依赖特定模型,只要是具备概率预测能力的模型,如 dropout 神经网络、高斯过程等均可适用(Nguyen & Dieng, 2025)。这种模型无关特性使得 VIG 不仅能在生态研究的图像标注中发挥作用,还可推广至其他众多机器学习任务。

  2. 高效的标注性能:在数据有限的生态监测场景中,VIG 能够以更少的标注数据实现更高的预测性能,为生态学家节省大量的时间和资源成本(Nguyen & Dieng, 2025)。

局限性

计算过程中,VIG 需要为每个候选图像重新训练模型,导致计算复杂度较高(Nguyen & Dieng, 2025)。不过,研究者通过采用 “早停训练” 策略(即训练损失收敛时终止训练)进行优化,使得单次评估时间缩短至约 4 秒,在性能大幅提升的背景下,这一计算成本具有一定的可接受性(Nguyen & Dieng, 2025)。

未来展望

  1. 拓展应用领域:探索 VIG 在物种数量估算等回归任务中的应用,进一步丰富其在生态研究中的应用场景(Nguyen & Dieng, 2025)。

  2. 结合众包标注平台:考虑将 VIG 与众包标注平台相结合,通过智能筛选标注任务,优化专家标注资源的分配,提高标注效率和质量(Nguyen & Dieng, 2025)。

Vendi 信息增益(VIG)作为一种创新的主动学习策略,为生态研究中的图像标注难题提供了切实可行的解决方案。其在提高标注效率、增强模型性能以及优化数据利用等方面的显著优势,有望推动生态研究领域与机器学习技术的深度融合,为生物多样性保护和生态系统监测提供更有力的支持。

参考文献

Nguyen, Q., & Dieng, A. B. (2025). Vendi Information Gain for Active Learning and its Application to Ecology. arXiv preprint arXiv:2509.10390.