实时实例分割与自监督学习的计算机视觉突破
计算机视觉的长期挑战
理解纷繁复杂的视觉世界是计算机科学家数十年来的重大挑战。视觉远不止于“看见”——要让机器发挥最大效用并安全地融入人类环境,它们必须以超人类的置信度理解周围发生的事情。人类为每个场景赋予意义并做出恰当反应的知识,正是早期计算机视觉(CV)系统所缺乏的。当时的人工智能系统只能通过大量人工标注的示例图像进行训练来学习识别,这一过程称为监督学习。
从监督学习到自监督学习的转变
约15年前,当电气工程本科生Yong Jae Lee首次接触CV挑战时,监督学习占据主导地位。当时要教会CV系统识别猫,需展示数千张猫的图片,每张图片都精心绘制边界框并标注“猫”。通过这种方式,系统可以学习使猫唯一可识别的特征组合。而让CV系统在极少或没有预标注数据帮助的情况下学习提取视觉世界中许多重要特征的想法,在当时显得遥远而困难。
如今,某机构研究奖项获得者、威斯康星大学麦迪逊分校副教授Lee坚信CV的未来在于无监督或弱监督学习。这种机器学习(ML)形式的思想是:CV模型接收大量未标注图像,并自行学习区分其中包含的多种对象类别,从猫、狗和跳蚤到人、汽车和树木。
“当时无监督学习并不流行,但我毫不怀疑这是值得研究的方向,”Lee说。“现在,几乎整个社区都相信这个方向。正在取得巨大进展。”这种向无监督(即自监督)学习的转变是由深度学习革命带来的。在这种范式下,开发的ML算法可以从大量原始未标注数据中提取相关信息。这种学习被比作婴儿如何了解世界,尽管是在数字时间尺度上。
深度学习的飞速成功意味着Lee的研究生教学内容每个学期都在演变。“本月的最新技术下个月就不再是最新的,”他说。“经常有惊喜,每几年就有范式转变。需要 navigating 的内容很多,但对学生来说是一个激动人心的时代。”
实时对象实例分割的突破
在不教学的时候,Lee正在推动监督和自监督CV方法的边界。2019年,他获得了某机构机器学习研究奖项(现称为某机构研究奖项),部分用于支持一系列关于实时对象实例分割的开创性论文。
对象实例分割远比视觉对象检测更进一步:它是CV模型不仅能够检测图像中某处存在对象,还能准确定位和分类每个感兴趣对象(如椅子、人或植物)并在图像中 delineate 其视觉边界的能力。通过实例分割,图像中的每个像素不仅被归为某个对象类别,模型还通过清晰分割该对象类别的每个“实例”来区分两个相同类别的对象。
2019年的挑战在于:虽然实例分割任务在应用于单个图像时可以做到高标准,但尚未有系统在应用于实时流视频(定义为每秒30帧或以上)时达到高精度基准。
CV系统需要快速理解视觉场景,因为一系列新兴技术依赖这种能力,从无人驾驶汽车到自主仓库机器人。
Lee当时在加州大学戴维斯分校,与他的学生Daniel Bolya、Chong Zhou和Fanyi Xiao开发了第一个在速度上达到如此精度的模型,并且仅用一个GPU训练模型就实现了这一目标。他们的监督系统称为YOLACT(You Only Look At CoefficienTs),精简而高效。它的速度快是因为研究人员开发了一种新方法,可以并行运行实例分割任务的各个方面,而不是依赖较慢的顺序处理。YOLACT在2019年国际计算机视觉会议的COCO对象检测挑战中获得了最具创新奖。
此后,Lee的团队显著提高了系统的效率和性能,最新版本的YOLACT称为YolactEdge(与学生Haotian Liu、Rafael Rivera-Soto和Fanyi Xiao共同构建),可以搭载在不超过手掌大小的设备中。通过将YOLACT代码在GitHub上公开,Lee让许多人都能使用这一系统。
“它产生了很大影响。我知道有很多人在使用YOLACT,至少有一家初创公司,”Lee说。“这不是某种智力练习。我们正在创建具有现实世界价值的系统。对我来说,这是一种非常令人兴奋的感觉。”
图像生成中的自监督学习应用
在Lee工作的另一个分支中,也得到某机构奖项的支持,他开创了基于ML的图像生成新方法。另一个研究首例是MixNMatch,这是一个最小监督模型,当提供许多真实图像时,它自学区分各种重要的图像属性。通过学习区分对象的形状、姿态、纹理/颜色和背景,系统可以采用微调控制生成具有任何所需属性组合的新图像。
Lee继续在此基础上开展工作。今年,他与现任和前任学生(Yang Xue、Yuheng Li和Krishna Kumar Singh)发布了GIRAFFE HD,这是一个具有3D感知的高分辨率生成模型。这意味着它可以 among other things,连贯地旋转、移动和缩放场景中的前景对象,同时独立生成适当的背景。它是一个功能强大的设计工具,具有近乎人类般的把握图像如何 realistically 和无缝转换的能力。
“作为用户,你可以调整不同的‘旋钮’以高度可控的方式改变生成的图像,例如对象的姿态甚至[虚拟]相机高度,”Lee说。他补充道,此类模型所需的视觉理解深度太大,无法依赖监督学习。
“如果我们想创建能够真正吸收所有视觉信息的系统,比如人类一生中吸收的信息,我们策划那种数据集是不可行的,”Lee说。开发这种技术而没有 significant 计算资源也不可行,这就是为什么Lee的某机构奖项包括了某机构Web服务的积分。
“对我们实验室特别有益的是某机构的EC2[弹性计算云]。在关键时刻,当我们需要运行许多不同实验时,我们可以并行进行。EC2上机器的可扩展性和可用性对我们的研究非常有帮助。”
未来挑战与展望
虽然Lee显然对视觉研究的许多方面充满活力,但他看到了一个迫在眉睫的缺点:大量AI生成的艺术作品在线发布。
“现在的 state of the art 是直接从互联网数据中学习,”他说。“如果这些数据充满了许多ML输出,你实际上并不是从所谓的真实知识中学习,而是从‘虚假’信息中学习。目前尚不清楚这将如何影响未来模型的训练。”
但他对进展速度仍然乐观。他说,图像生成系统已经展示的语义理解令人惊讶。“以Dalle-2的骑马宇航员为例。这种语义概念在现实世界中并不真正存在,对吧,但这些系统可以构建 exactly that 的合理图像。”
从此得出的教训是,数据的力量难以否认,Lee说。即使数据是‘嘈杂的’,拥有大量数据允许ML模型对视觉世界发展出非常深入的理解,导致语义概念的创造性组合。“即使对于在这个领域工作的人来说,我仍然觉得它迷人。”
Lee对希望进入这个动态领域的学生有什么建议?“在这个机器学习空间有如此多的活动,真正重要的是找到你真正热衷的主题,并获得一些实践经验,”Lee说。“不要只是读一篇论文就 presume 你知道你需要知道什么。最好的学习方法是下载一些尖端开源代码并真正玩弄它。玩得开心!”