计算机视觉:从图像理解到世界认知

本文探讨计算机视觉技术的发展现状与挑战,重点分析图像理解、情感识别及场景生成等前沿研究方向,并介绍某中心在可视化购物领域的创新应用,包括可购物图像和生成对抗网络技术的实际部署。

CVPR:理解图像意味着理解世界

某中心零售部门高级首席科学家Aleix M. Martinez认为,计算机视觉研究仅仅触及了表面。自1990年代末首次参加计算机视觉与模式识别会议(CVPR)以来,他见证了深度学习如何彻底改变计算机视觉领域。

认知复杂性挑战

Martinez指出,早期计算机视觉问题已基本解决,但更丰富复杂的问题随之出现。通过认知科学研究发现,人类对图像的理解依赖上下文知识,例如足球运动员庆祝进球的场景,需要理解足球规则、团队对抗等概念。现有计算机视觉方法尚未实现这种认知复杂度。

研究还揭示,面部血流变化是情感识别的重要信号——人体释放肽类物质(如睾酮和皮质醇)会改变血液流动,导致面部颜色脉动。这种人类无意识使用的信号,直到发表在《美国国家科学院院刊》才被认知。

可视化购物创新

在某中心,Martinez团队利用计算机视觉提升购物体验。2020年推出的"可购物图像"功能,允许用户点击房间图像中的物体获取相关产品信息。计算机视觉算法识别图像中的相似产品,如同实体商店的展厅浏览体验。

2022年,该功能扩展到产品详情页的装饰性图像(如扶手椅照片中的灯具)。团队正开发结合计算机视觉和产品目录规格的算法,自动添加指示产品尺寸的方向箭头。同时探索使用生成对抗网络(GAN)合成虚拟展厅,扩展可购物内容。

生成模型的未来挑战

虽然生成模型擅长生成单对象图像(如人脸、动物、汽车),但Martinez关注更复杂的场景生成:能否生成包含多对象、多活动的真实场景?能否描绘有意义的交互行为?能否描述动作(动词)而不仅是物体(名词)?能否编辑图像创建展示视角变化或光照变化的视频?这些科学界尚未完全解决的问题,正是下一步研究的重点。

“当机器学习能达到人类智能水平?这是个无关紧要的问题。因为我们甚至不知道人类智能是什么。"——Aleix M. Martinez

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计