计算机视觉未来发展方向与技术趋势

本文探讨计算机视觉领域在ECCV 2020会议上的技术发展方向,重点分析无监督学习、生成式模型与几何学融合等前沿技术。专家指出当前深度学习面临概念创新瓶颈,并提出通过减少标注依赖、结合几何计算等突破方向。

ECCV:计算机视觉将走向何方?

欧洲计算机视觉会议(ECCV)于周日开幕,该会议每两年举办一次,与国际计算机视觉大会(ICCV)交替进行。原定今年在格拉斯哥举行的ECCV与夏季多数主要计算机科学会议一样,已转为线上举办。

某中心学者、弗莱堡大学计算机科学教授Thomas Brox认为,无监督学习、生成式模型以及机器学习与几何学的结合具有发展潜力。

会议背景

与CVPR(IEEE计算机视觉与模式识别会议)一起,ICCV和ECCV构成了计算机视觉领域的三大会议。“过去,ECCV往往更侧重于数学和3D几何,而CVPR则更偏向模式识别,“担任今年ECCV程序主席的Brox表示,“但如今,所有内容都涉及模式识别和深度学习,它们变得更加相似。”

Brox首次参加ECCV是在2004年,当时他还是研究生。当计算机视觉领域的深度学习革命开始时,他已经参加了10年。“我喜欢事情变得简单,“Brox说,“所以我非常喜欢2014、2015年那个时期,许多计算机视觉问题突然简化了很多。你使用一个网络——具体是什么并不重要——总能获得比以往更好的性能。”

“当然,现在每个人都这样做了,事情又变得相当复杂。关键在于改变网络中的一些细节、训练方式、数据收集方法以及呈现方式,从而获得微小的渐进式改进。”

“基准测试的进展仍然相对较快,但概念上的进展相对缓慢。过去当出现这种情况时,基准测试的进展最终也会停止。2010年我做博士后时,目标检测也面临同样的情况。此前有很多进展,然后变得越来越慢,没有人知道该怎么做。随后深度学习出现,或多或少解决了这个问题。”

十年后,深度学习也"缺乏概念创新”,Brox表示:“我认为我们遇到了瓶颈。”

技术突破方向

当然,没有人知道下一个概念性突破会是什么:“如果有人知道,我们都会去做的,“Brox笑着说。但他愿意提出一些猜测。

“一个可能的方向是减少对这些标签注释的依赖,因为它们实际上可能限制多于帮助,“Brox说。如今,大多数机器学习都是监督学习,涉及带有标签的训练样本,机器学习模型学习根据输入特征预测标签。使用未标记数据进行训练被称为无监督学习。

“一旦研究无监督损失函数,在某种程度上就回到了过去,“Brox说。“我们制定了相同类型的损失函数。但没有深度网络,优化技术直接作用于输出变量而不是网络参数。需要在此基础上添加其他内容,但这个方向可能很有趣。”

另一个引起Brox兴趣的技术是使用生成式模型,而不是当今主流的判别式模型。给定两个变量——比如图像视觉特征和这些图像中物体的可能标签——判别式模型(如当今的神经网络)在给定一个变量特定值的情况下估计另一个变量的值:如果图像特征是一个尖耳朵,标签很可能是"猫”。

相比之下,生成式模型试图学习一个概率分布,将一个变量的所有可能值与另一个变量的所有可能值联系起来。因此,它提供了世界的统计模型,而不是执行分类的技巧集合。

“判别式模型只试图找到区分两个不同类别的特征,只要能区分它们就很满意,“Brox说。“而生成式模型,你还想解释所看到的内容。如果能解释所看到的内容,那么可能拥有更稳健的模型,泛化能力也更好。”

“这是一个非常有趣的方向,但目前还不具备竞争力。当你提出一个新概念时,它通常不如这些优化了所有细节的方法好。这与深度学习研究人员多年来面临的情况类似,当时他们确信自己拥有正确的工具,但计算机视觉界没有人愿意相信他们,因为他们的结果差很多。你必须真正相信自己的策略,继续努力直到达到最先进水平。”

几何学回归

在自己的工作中,Brox也在研究将深度学习与过去ECCV优先关注的"数学和3D几何"相结合的可能性。特别是,他正在研究利用物体运动推断其3D形状信息的方法,这种方法似乎受益于在不同旋转下关联物体表面点的严格计算方法。

“运动信号中包含大量信息,当前技术未能充分利用,“Brox说。“特别是在考虑无监督学习时,这可能非常有用。更好地利用3D结构也是我的兴趣之一。”

“起初,没有人相信深度学习可以捕捉3D视觉。每个人都认为,‘好吧,这两个领域不兼容,所以如果你研究3D视觉,你是安全的。不需要转向深度学习。’”

“实际上,并非如此。使用深度学习进行3D视觉也有好处。但不能用深度学习解决所有问题。更多的是经典几何、经典数学与使用深度学习处理模式识别部分的结合。两者的结合非常有前景。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计