WACV:应用型计算机视觉研究的家园
随着视频在时长和分辨率上的不断提升,新的研究问题也随之产生。
扩展的视觉维度
某中心首席科学家Zongyi Liu指出,计算机视觉正面临时空维度的双重挑战。在工业应用中,长视频分割和超高清视频中的物体识别与语义分割正推动着计算机视觉研究的发展。
“计算机视觉在空间和时间维度上都在扩展,这两个方向都很困难,“Liu表示,“如今人们主要处理10秒左右的视频,因为这是GPU内存能处理的极限。一旦视频时长达到一小时——或者体育赛事的三小时——这对任何内存来说几乎都是不可能的。如果将其分割成几秒的片段,又过于零碎,无法获得完整画面。”
“同时,单个图像也在发生根本性变化,因为我们正在进入超高清时代。大多数图像目前是1080p甚至640p。但当分辨率达到2096p时,就会产生新的问题:如何使算法具备可扩展性以进行物体检测?虽然可以降采样,但如果要检测非常小的物体就会有问题。如何检测图像质量并判断是经过放大还是原始图像?人类如何感知这些图像?这些都是计算能力和内存方面的挑战。”
音视频对齐技术
Liu及其同事关于视频分割的论文研究了识别视频流中广告片段的问题。
“我们论文的主要贡献是使用音频而非视频进行分割,因为使用音频开始分割更具可扩展性,“Liu解释说,“我们的方法比现有技术快8到10倍。”
Liu进一步解释,同样的原理——场景切换和音频中断应该对齐——可以反向用于识别音视频不同步的情况。
“音视频同步是个非常困难的课题,因为它是多模态的,而且人类对此非常敏感,“Liu说,“你可以接受图像分辨率暂时降低,但如果音视频不同步哪怕只有半秒,都会让人难以忍受。”
“人们识别不同步的一种方法是通过互相关分析。他们使用一个窗口来移动音频与图像特征,观察哪个位置能给出最高相关性。我之前发表的一个例子是:当一个镜头结束下一个开始时,你可以检测到。我同时从视频和音频检测过渡时段。如果音视频同步,它们的过渡时间应该对齐。虽然存在一些噪声,但如果系统性地不同步,通过聚合所有这些视频和音频信号应该能够识别出来。”
应用研究的价值
Liu表示,通过关注用户体验,可以产生新颖有趣的研究问题。当这些问题涉及计算机视觉时,WACV是展示这些成果的理想平台。
“在工业界,我们有科学家并不专注于学术算法研究,“Liu说,“WACV确实是我们这样的科学家展示工作的绝佳会议。”