WACV:应用型研究的家园
随着视频时长和分辨率的不断提升,新的研究问题也随之产生。
会议背景
WACV 2023(冬季计算机视觉应用会议)以其对应用研究的专注而区别于其他主要计算机视觉会议。某中心的研究人员每年在CVPR和ECCV等会议上发表数十篇基础计算机视觉研究论文,而WACV则为直接解决业务问题的科学研究提供了友好平台。
扩展的视觉挑战
计算机视觉在空间和时间维度上都在增长,两个方向都面临困难:
- 长时间视频分割:识别长视频中的场景边界
- 超高清(UHD)视频中的物体识别和语义分割
当前研究多关注10秒左右的视频,因为这是GPU内存可以处理的范围。一旦处理时长达到一小时(或体育赛事的三小时),任何内存都几乎无法胜任。如果将视频分解为几秒钟,又过于零碎,无法获得完整画面。
同时,单个图像也在发生根本性变化:从1080p甚至640p转向2096p的超高清分辨率。这引发了新的问题:
- 如何使算法可扩展以进行物体检测?
- 下采样可能导致小物体检测问题
- 如何检测图像质量并判断是否为原始内容?
- 人类如何感知这些质量变化?
这些挑战涉及计算能力和内存两个方面的限制。
音视频对齐创新
某论文研究了从视频流中识别广告片段的问题,提出了一个重要创新:使用音频而非视频进行初始分割。
这种方法比现有技术快8-10倍,因为使用音频开始分割更具可扩展性。同样的原理也可以反向使用:通过场景切换和音频中断的对齐情况,来识别音视频不同步的问题。
音视频同步是一个极具挑战性的课题,因为它是多模态的,且人类对此非常敏感。图像分辨率暂时降低可以接受,但音视频仅半秒的不同步就令人难以忍受。
通过检测视频和音频的过渡时间,如果系统性地不同步,就可以通过聚合所有视频和音频信号来识别。
研究价值
关注客户体验可以催生新颖有趣的研究问题。当这些问题涉及计算机视觉时,WACV是展示这些成果的理想场所。对于不专注于学术算法的工业界科学家来说,WACV提供了一个展示工作的优秀平台。
研究领域
计算机视觉
标签
视频、多模态交互、WACV
相关出版物
《基于深度神经网络的视频广告检测框架》
关于作者:Larry Hardesty是某中心科学博客的编辑,曾担任MIT Technology Review的高级编辑和MIT新闻办公室的计算机科学撰稿人。