“我不记得生命中有什么时候对科学不感兴趣过”——某中心科学
某中心网络服务高级应用科学家Alessandro Achille正在应对塑造计算机视觉和大型生成式AI模型未来的基础性挑战。
计算机视觉
从紧迫的“机器遗忘”挑战到克服深度神经网络中的关键学习期问题,Alessandro Achille正在为某中心客户解决基础性问题。
从纯数学家到某中心应用科学家
“我不记得生命中有什么时候对科学不感兴趣过,”他说。Achille对数学基础特别感兴趣。“我专注于逻辑,因为我脑海中一直有个挥之不去的问题:为什么数学中的事物就是它们现在的样子。”
Achille第一次接触计算机视觉是在他和同学们决定增强学校传统活动时:数学家与物理学家之间的24小时桌上足球比赛。除了体育竞赛,这项活动已成为展示学生工程能力的平台。那年,在添加了直播和全自动计分系统后,学生们认为该添加实时球体跟踪了。
“这只是一个在绿色背景上移动的白色斑点。能有多难?”Achille说。简短的回答是:比他们想象的要难。因此Achille选修了一门能教他更多的课程——这个选择最终导致Soatto邀请他加入加州大学洛杉矶分校,攻读计算机视觉博士学位。
深度学习起飞
Achille攻读博士期间正值深度学习崛起,这后来成为机器学习和计算机视觉领域的颠覆性技术。“当时,我们不知道它是否不仅仅是一种新的、稍微更强大的工具。我们不知道深度学习是否具有抽象、推理等能力,”Achille说。
不过,深度学习的力量正变得清晰。在2017年的一次实习期间,Achille研究了一个计算机视觉模型,该模型可以学习动态场景的表征——一个正在移动、改变颜色、改变方向等的3D形状。
这个想法是捕获并分离场景的语义组件——形状、大小、颜色或旋转角度——而不是捕获场景特征的整体。人类自然地完成这种解缠。这就是你如何理解蓝色香蕉的景象,即使你以前从未见过:“香蕉”和“蓝色”是独立的语义组件。
虽然Achille喜欢这个项目并认识到其重要性,但他对设置的人为性感到震惊。“我不是从用例反向工作的,”他说。不久之后,Achille成为某中心AI实验室的实习生,该实验室刚刚在加州理工学院校园成立,他立即被赋予一个现实世界的挑战,需要在一个名为Custom Label的新推出产品上解决。
现实世界问题
当时,Custom Label允许某中心客户访问可以训练识别图像中公司产品(例如特定水龙头)的CV模型。这些模型也可以训练执行诸如识别视频中的内容或分析卫星图像等任务。
某中心的研究人员意识到,期望单个模型准确处理如此广泛深奥的图像可能性是不切实际的。更好的方法是在不同的图像领域预训练许多专家模型,然后选择最合适的模型对客户数据进行微调。某中心的问题是,如何高效地发现100个或更多预训练CV模型中哪一个表现最好?
Alessandro Achille:深度神经网络中的信息
在机器学习研究期间,Achille对信息理论产生了热情——一种量化、存储和通信信息的数学框架。因此他在这个所谓的模型选择问题上使用了该方法。“对于锤子,一切看起来都像钉子,”他笑道。
问题在于如何衡量两个学习任务之间的“距离”——给定某中心模型已预训练的任务和新的客户任务。换句话说,预训练模型需要在客户任务上产生良好性能需要多少额外信息?所需额外信息越少越好。
Achille对这个任务印象深刻,因为它是一个重要的客户问题,背后有基础数学问题。“我们制定了一种高效计算这个的算法,因此我们可以轻松选择最适合解决客户任务的专家模型,”Achille说。“这是该问题的第一个解决方案。”
Achille发现某中心的应用方法是一种引人注目的工作方式,当Soatto建立某中心AI实验室时,Achille很乐意加入他。
“在某中心的好处之一是我们正在应对世界上一些最具挑战性的新兴问题,”Soatto说。“因为当某中心客户有难题要解决时,他们会来找我们。从科学角度来看,这是一个金矿。”
机器遗忘
Achille目前正在人工智能一个关键新领域划定研究金矿的范围:AI模型吐出,更通俗地称为“机器遗忘”。在任何机器学习模型实施中,用于训练模型的数据以隐私保护方式负责任地使用,并符合适当法规和知识产权,这一点至关重要。
现代ML模型变得非常庞大和复杂,需要大量数据和计算资源来训练。但是,如果模型训练后,某些训练数据的贡献者决定或被法律要求从模型中撤回数据呢?或者如果发现某些训练数据存在偏见怎么办?在扣留某些数据的情况下重新训练大型模型可能不切实际,特别是在不断变化的法律环境中对此类更改的需求变得普遍的情况下。
下一级别
2019年,Soatto、Achille和Achille的加州大学洛杉矶分校博士生同学Aditya Golatkar发表了一篇题为“Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks”的论文;该论文建立了一种新颖的方法,用于移除深度神经网络训练数据子集的影响,而无需重新训练。
“我很高兴看到在我们发表这篇论文后,对‘选择性遗忘’的兴趣爆发了,”Achille说。“模型吐出是一个引人入胜的问题,不仅因为它对某中心客户非常重要。它还要求我们理解模型神经网络的一切。我们需要理解信息在模型权重中的存储位置、编码方式以及测量方式。”
Soatto说,正是在这项基础工作中,Achille将该领域带到了“下一级别”。今年,Achille和Soatto在一个还包括某中心学者Michael Kearns(《伦理算法》合著者)的团队中,通过引入适用于现代ML系统的可能吐出方法分类法引领了该领域。
该论文还描述了训练未来模型的方法,以便它们适合后续的吐出。
“模型最好以分 compartmentalized 方式学习,这样如果某些数据被发现有问题,触及这些数据的所有内容都被丢弃,而模型的其余部分无需从头开始重新训练即可保留,”Soatto说。
Achille说,这项工作特别令人满意,因为它迫使计算机科学家、数学家、律师和政策制定者密切合作解决紧迫的现代问题。
关键学习期
Achille兴趣的广度令人敬畏。他其他突出的研究包括深度网络训练中“关键学习期”的工作。这项工作的产生源于偶然,一位为研究人类关键学习期深远影响而备考医学考试的朋友开玩笑地问Achille,他的网络是否也有这些时期。兴趣被激起,Achille探索了这个想法,并发现了一些惊人的相似之处。
例如,婴儿斜视,一种从出生或婴儿早期开始人的眼睛无法正确对齐的状况。如果不及早治疗,该状况可能导致弱视,即大脑学会信任正常工作的眼睛,并忽略不对齐眼睛的视觉输入,以避免复视。
两眼(数据源)之间的这种单边竞争导致不对齐眼睛的视力恶化,当然还有立体视觉的丧失,这对深度感知很重要。如果到成年仍未治疗,弱视难以逆转。但早期治疗眼睛,使它们能够最佳地协同工作,可以形成强大的视觉系统。
类似地,在多模态深度神经网络的早期训练中,一种类型的数据可能比另一种更受青睐,仅仅为了方便。例如,在视觉问答模型中,该模型在图像和标题上训练,易于使用的文本信息可能胜过视觉信息,导致模型实际上对视觉信息视而不见。Achille和他的同事提出,当DL模型采取此类捷径时,它对模型的后续性能产生不可逆转的影响,使其在 novel 数据上微调时灵活性降低——因此用处减少。
探索图表之外
在探索了深度网络中关键学习期的原因后,团队提供了稳定模型训练中早期学习动态的新技术,并展示了这种方法如何实际防止深度网络中的关键期。除了这项研究的实际好处外,Achille喜欢探索人工和生物系统的并行性。
“看,我们都能认识到网络和大脑的实际硬件完全不同,但我们能否也认识到它们都是试图高效处理信息并试图学习某些东西的系统?”他问。学习和它与信息获取相关的基本动态是否存在合成系统和生物系统共享的?请关注此领域。
回顾自他比萨狩猎之旅以来的八年,Soatto思考他最欣赏他的某中心同事什么。
“首先,Alessandro构建问题方式的才华:他思考非常抽象,但他也是一个思考广泛的黑客,从数学到神经科学,从艺术到工程——这非常罕见。其次,他的好奇心,绝对超出图表。”
就Achille而言,当被问及他更喜欢应对来自某中心产品的挑战还是从事基础科学问题时,他婉拒回答。“我不需要在产品和基础研究之间分配时间。对我来说,最终是同一件事。”
确实,某中心最抽象的思想家之一已经找到了产生真正影响的路径。
研究领域
计算机视觉
标签
深度学习 神经网络 生成式AI 实习 在某中心工作
关于作者
Sean O’Neill Sean O’Neill是一位作家、编辑和科学传播者,居住在英国布里斯托尔附近。