从数学基础到AI前沿:计算机视觉与机器学习的深度探索
“我不记得生命中有什么时候对科学不感兴趣” —— 某中心科学部门
从“机器遗忘”的紧迫挑战到克服深度神经网络关键学习期的问题,Alessandro Achille正在代表某中心客户解决根本性问题。
学术起点与转型
2015年,计算机视觉先驱Stefano Soatto在意大利比萨的高等师范学校发现了Alessandro Achille。这所由拿破仑创办的学府以其严格的选拔和训练过程闻名,培养了包括诺贝尔奖得主恩里科·费米和卡洛·鲁比亚等杰出科学家。
当时Achille正在攻读纯数学硕士学位,专注于代数拓扑学。他回忆道:“我不记得生命中有什么时候对科学不感兴趣”,特别对数学基础充满热情,“我专注于逻辑,因为我一直在思考数学中事物为何以特定方式存在”。
计算机视觉的初次尝试
Achille首次接触计算机视觉是在与同学合作增强学校年度传统活动:数学家与物理学家之间的24小时桌上足球锦标赛。除了体育竞赛,该活动已成为学生工程能力的展示平台。那一年,在添加了直播和全自动计分系统后,学生们决定增加实时球体跟踪功能。
“这只是一个在绿色背景上移动的白色斑点,能有多难?”Achille说道。简短的回答是:比他们想象的要难。这个项目促使Achille选修了相关课程,最终获得Soatto的邀请,加入加州大学洛杉矶分校攻读计算机视觉博士学位。
深度学习的崛起
Achille攻读博士期间正值深度学习(DL)兴起,这项技术后来成为机器学习和计算机视觉领域的革命性突破。“当时我们不知道它是否只是一个新的、稍微更强大的工具。我们不知道DL是否具有抽象、推理等能力,”Achille表示。
2017年实习期间,Achille致力于开发能够学习动态场景表示的计算机视觉模型——捕捉和分离场景的语义组件(形状、大小、颜色或旋转角度),而不是捕获场景特征的整体。人类自然地进行这种解缠操作,这就是为什么即使从未见过蓝色香蕉,也能理解这个概念:“香蕉”和“蓝色”是独立的语义组件。
解决现实世界问题
随后Achille加入某机构AI实验室,面对现实世界的挑战。当时,Custom Label服务允许客户访问经过训练可识别图像的计算机视觉模型,例如识别公司特定产品。
研究人员意识到,期望单个模型准确处理如此广泛的深奥图像可能性是不现实的。更好的方法是在不同图像域上预训练多个专家模型,然后选择最合适的模型对客户数据进行微调。关键问题是如何高效发现100多个预训练CV模型中哪个性能最佳?
Achille运用信息理论——量化、存储和通信信息的数学框架——来解决这个模型选择问题。核心在于衡量两个学习任务之间的“距离”:给定模型预训练的任务与新颖客户任务之间的距离。换句话说,预训练模型需要在客户任务上产生良好性能需要多少额外信息?所需额外信息越少,效果越好。
机器遗忘的前沿研究
Achille目前专注于人工智能的关键新领域:AI模型吐出,更通俗地称为“机器遗忘”。在任何机器学习模型实施中,负责任地使用训练数据、以隐私保护方式并根据适当法规和知识产权至关重要。
现代ML模型变得非常庞大和复杂,需要大量数据和计算资源进行训练。但如果模型训练完成后,某些训练数据的贡献者决定或被法律要求从模型中撤回数据怎么办?或者如果发现某些训练数据存在偏见怎么办?在变化的法律环境中,如果此类变更需求变得普遍,重新训练大型模型可能不切实际。
2019年,Soatto、Achille和同事发表了论文《无瑕网络的永恒阳光:深度网络中的选择性遗忘》,提出了一种新颖的方法来消除深度神经网络训练数据子集的影响,而无需重新训练。
关键学习期的突破性发现
Achille的另一项重要研究涉及深度网络训练中的“关键学习期”。这项研究源于偶然性:一位正在研究人类关键学习期深远影响的医学生朋友开玩笑地问Achille,他的网络是否也有类似现象。
研究发现了令人惊讶的相似性。以婴儿斜视为例,如果不及早治疗,可能导致弱视,大脑学会信任正常工作的眼睛而忽略错位眼睛的视觉输入。类似地,在多模态深度神经网络的早期训练中,一种数据类型可能通过便利性而优于另一种类型。
研究团队开发了稳定模型训练中早期学习动态的新技术,展示了这种方法如何实际预防深度网络中的关键期。除了实际好处外,Achille享受探索人工和生物系统之间的并行性。
跨学科的研究方法
回顾过去八年,Soatto最欣赏他的同事两点:“首先,Alessandro构建问题的方式非常出色:他思考非常抽象,但同时也是一个思考广泛的黑客,从数学到神经科学,从艺术到工程——这非常罕见。其次,他的好奇心绝对超出图表。”
当被问及更喜欢解决来自某机构产品的挑战还是从事基础科学问题时,Achille表示:“我不需要在产品和基础研究之间分配时间。对我来说,这最终是同一件事。”
确实,某机构最抽象的思想家之一已经找到了产生真正影响的路径。
研究领域: 计算机视觉
标签: 深度学习、神经网络、生成式AI、实习、在某机构工作