群体相对增强提升动作检测数据效率

提出结合参数高效调优与可学习内部特征增强的适配策略,通过群体加权损失函数动态调节增强样本训练权重,在AVA和MOMA数据集上实现高效多标签多人动作检测,显著提升小样本场景下的模型性能。

群体相对增强提升动作检测数据效率

摘要

大型视频语言模型(VLMs)在仅使用少量样本进行动作检测适配时面临过拟合和粒度不匹配的挑战。提出一种高效适配策略,结合参数高效调优(LoRA)与新颖的可学习内部特征增强方法。这些增强通过FiLM在冻结的VLM骨干网络中应用,生成与任务直接相关的多样化特征变体。此外,引入群体加权损失函数,根据每个增强样本相对于群体平均预测的差异动态调节其训练贡献,通过优先处理信息丰富且合理的增强来促进鲁棒学习。在复杂多标签、多人动作检测数据集(AVA、MOMA)上验证了方法的有效性,实现了较高的mAP性能,并展示了从有限样本中适配VLM的显著数据效率。

主题分类

  • 计算机视觉与模式识别(cs.CV)
  • 机器学习(cs.LG)

引用信息

arXiv:2507.21353 [cs.CV]
DOI: 10.48550/arXiv.2507.21353

提交历史

2025年7月28日提交(版本v1)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计