某中心在WACV:计算机视觉超越像素标记
IEEE冬季计算机视觉应用会议(WACV)上,某中心杰出科学家Gérard Medioni阐述了通过视觉输入理解环境的复杂性。
主题演讲的全球视野
本届WACV的三位主题演讲者展示了计算机视觉应用的广泛性:
- 以色列理工学院副教授Lihi Zelnik-Manor分享为某电商机构进行计算机视觉与人工智能项目的经验
- Pinscreen联合创始人兼CEO Hao Li探讨创建逼真在线虚拟形象的技术挑战
- 多伦多大学教授Raquel Urtasun将讨论自动驾驶汽车的科学技术
计算机视觉的本质演进
Medioni指出:“计算机视觉应被理解为场景解释,不仅包括静态内容,还涉及动态理解。这是通过视觉输入理解环境的过程,包括对行为的预测和理解。活动理解是计算机视觉的子领域:比如‘这个人在做什么?’”
理想的技术试验场
自动驾驶和无人购物技术被视为计算机视觉的理想试验场。Medioni解释道:“需要解决计算机视觉中能想到的所有子问题。对于自动驾驶,需要理解场景——检测标志、行人、车辆,并推断行为。此外还需要提供驱动信号来控制汽车。”
他特别强调:“无论是无人商店还是自动驾驶汽车,基础案例相对简单,但存在非常长的复杂案例尾端。由于这个长尾特性,无法在实验室预先考虑所有情况并解决,必须积累数万小时的驾驶经验来处理这些案例。”
人机交互的复杂性
Medioni指出另一个复杂层面:“人类驾驶员与自动驾驶汽车的组合。当同时到达停车标志时,人类通过眼神交流建立联系并决定行动顺序。这种非语言互动在自动驾驶汽车与人类驾驶员之间不存在,没有眼神接触,这是非常有趣的方面。”
逼真虚拟形象的挑战
Hao Li在主题演讲中讨论了合成逼真在线虚拟形象的技术挑战。Medioni解释说:“人类交谈时不仅是头部运动,还包括手部、手臂和肩膀的动作。仅面部说话而手臂不动的虚拟形象会显得非常不自然。”
他进一步阐述:“复杂性在于人类非常擅长检测任何类型的缺陷。任何稍微不自然的地方都会产生恐怖谷效应。生成表情比表情分类更复杂——创建表情涉及面部数十块肌肉的运动,其中一些肌肉的激活可能非常微妙。还包括不可见部分的表现,如张嘴时舌头和牙齿的显示。Li是该领域实现丰富面部表情的领先者之一。”
Medioni总结道:“计算机视觉今日所能实现的成就仍然令我惊叹。在这个领域每周都能看到进展,真是非常了不起。”
本文基于WACV 2021会议内容,探讨计算机视觉技术的最新发展和应用前景。