神经信息处理系统会议:因果表征学习或成AI未来关键
在2021年神经信息处理系统会议(NeurIPS)前夕,某机构副总裁兼杰出科学家Bernhard Schölkopf(根据Google Scholar统计,其为因果推断领域被引用次数最多的研究者)指出,人工智能研究的下一前沿将是因果表征学习。现有因果推断方法使用机器学习发现变量间的因果关系(例如网站中多个相互关联服务的延迟),而因果表征学习则直接学习变量本身。“这类因果表征将推动推理能力发展,若想摆脱纯粹的智能模式识别视角,这最终将成为必需。“Schölkopf表示。
分布外泛化研究突破
某机构高级应用科学家Francesco Locatello领导着该机构在因果表征学习方面的研究,他是今年NeurIPS四篇论文的合著者。其中《迁移学习中的分布外泛化评估》探讨了因果推断在机器学习中最引人注目的应用之一:将基于特定概率分布数据训练的模型泛化到具有不同分布的真实世界数据。
“进行标准机器学习时,是从某个概率分布中抽取独立样本,然后训练能够泛化到相同分布的模型,“Locatello解释道,“这使用单一概率分布描述物理系统。因果模型的不同之处在于,它们通过干预对物理系统可能处于的每个状态进行建模。因此不是使用单一概率分布,而是拥有一组分布。”
“测试数据来自不同分布意味着什么?底层物理系统相同,因果结构也相同。这只是一个未见过的干预措施。测试分布与训练分布不同,但如今这不是任意分布。由于因果结构蕴含其中,这是良定义的,并且是现实世界中可能出现的意义分布。”
在《迁移学习中的分布外泛化评估》中,研究团队收集了大量针对该场景构建或调整的数据集,其中包含可用于迁移学习的狭窄数据集,以及各种分布外的测试数据。研究比较了文献中不同方法,并在公平基础上进行评估。“虽然论文中考察的方法都未明确考虑因果关系,但因果方法最终应能在此基准测试中表现更好,这将帮助我们评估进展。这就是我们构建该基准的原因。”
神经注意力电路创新
当今神经网络理所当然地进行表征学习:其输入通常是原始数据,在训练过程中学习数据的哪些方面对当前任务最有用。正如Schölkopf去年谈话所指出的,因果表征学习将使因果机器学习模型与传统模型保持同步。
“需要认识到的重要点是,大多数机器学习应用并非以一组明确定义的随机变量形式出现,这些变量与物理系统的底层功能完全一致,“Locatello解释道,“我们仍希望用抽象变量建模这些系统,但没人提供这些变量。因此可能需要学习它们以执行因果推断。”
Locatello表示,在其与同事的NeurIPS论文中,最接近因果表征学习主题的是《神经注意力电路》。因果模型通常使用图表示因果关系,神经网络也可视为巨大图。Locatello及其合作者试图通过训练神经网络模仿因果网络结构,使这种类比显式化。
“这是我们去年的NeurIPS论文的后续工作。灵感在于设计行为更类似因果模型的架构,其中存在噪声变量(即数据),以及被函数操纵的变量,它们简单地在图中相互通信。该图可以动态变化,例如由于干预导致分布变化时。”
“在第一篇论文中,我们开发了完全如此行为的架构:拥有一组可以根据数据和问题动态组合的神经函数。函数、路由和函数拼接都是学习得到的。但动态拼接的可扩展性不佳。”
“在这项新工作中,我们本质上编译了函数拼接,使得每个样本的路径都是预先确定的——它将通过网络何处传播,函数将如何组合。不是逐层动态处理,而是为整个前向传播做出决定。我们证明这些稀疏学习到的连接模式改善了分布外泛化。”
成功案例与未来展望
Locatello的其他NeurIPS论文涉及更传统的机器学习主题。《自监督非模态视频对象分割》考虑了重建被遮挡物体轮廓的问题,这对机器人应用(包括自动驾驶汽车)至关重要。
“我们利用可以在视频中随时间构建物体信息的原则,“Locatello解释道,“可能在过去的帧中看到过现在被遮挡的物体部分。如果能记得以前见过这个物体及其分割掩模,就可以随时间构建分割。”
最后一篇论文《两个头是否等同于一个?识别公平神经网络中的不同处理》考虑了训练目标明确设计为最小化不同类型输入偏见的模型。Locatello及其同事发现,这类模型经常(纯粹通过训练,无需人为干预)发展出两个"头”:即学习神经网络中的两种不同路径,一种用于敏感类别输入,另一种用于所有其他输入。
研究人员认为,既然网络正在学习两个头,不妨设计双头架构:在满足相同公平标准的同时提高性能。但这种方法尚未被采纳,因为它违反了禁止对不同群体进行不同处理的规则。然而在这种情况下,不同处理可能是确保公平对待的最佳方式。
后两篇论文仅与因果关系间接相关。但Locatello表示:“因果表征学习是一个非常年轻的领域。因此我们正在尝试识别成功案例,我认为这些论文正朝着这个方向前进。”
“很明显,因果关系将在未来机器学习中发挥作用,“他补充道,“因为机器学习中存在许多开放问题,当开始研究因果模型时,这些问题至少可以部分解决。我的目标真正是在主流机器学习应用中实现因果模型的好处。这就是为什么其中一些工作不一定关于因果关系,而是更接近机器学习。因为最终,这是我们的目标。”