因果表征学习引领AI未来发展方向

本文探讨因果表征学习作为人工智能未来发展方向的重要性,重点分析其在分布外泛化、神经注意力电路等领域的应用,以及如何通过因果模型解决机器学习中的开放性问题。

在2021年神经信息处理系统大会(NeurIPS)前夕,某中心副总裁兼杰出科学家指出,人工智能研究的下一个前沿将是因果表征学习。与现有因果推理方法使用机器学习发现变量间因果关系不同,因果表征学习直接学习变量本身。“这类因果表征将推动推理能力的发展,这对于摆脱纯粹模式识别的人工智能视角至关重要。”

某机构高级应用科学家弗朗切斯科·洛卡泰洛领导着该机构在因果表征学习方面的研究,他在今年NeurIPS上共同发表了四篇论文。

分布外泛化基准测试 《迁移学习中的分布外泛化测试》探讨了因果推理在机器学习中最引人注目的应用之一:将在特定概率分布数据上训练的模型泛化到具有不同分布的真实世界数据。

“标准机器学习是从某个概率分布中抽取独立样本,然后训练一个能泛化到相同分布的模型,“洛卡泰洛解释道。“这是使用单一概率分布描述物理系统。因果模型不同,它们模拟物理系统在干预下可能呈现的所有状态。因此不是单一概率分布,而是拥有一组分布。”

“测试数据来自不同分布意味着什么?底层物理系统相同,因果结构相同。只是遇到了未见的新干预。测试分布与训练分布不同,但这不再是任意分布,而是由因果结构蕴含的有意义分布,可能在现实世界中发生。”

在该研究中,“我们收集了大量为此场景构建或适配的数据集,其中包含可用于迁移学习的狭窄数据集,以及各种分布外的测试数据。我们评估文献中研究的不同方法,并在公平基础上进行比较。“虽然论文中考察的方法都没有明确考虑因果性,但"因果方法最终应该能在这个基准测试中表现更好,这将使我们能够评估进展。”

神经注意力电路 现代神经网络通常进行表征学习:输入通常是原始数据,在训练过程中学习数据的哪些方面对当前任务最有用。正如去年对话中指出的,因果表征学习将使因果机器学习模型与传统模型保持同步。

“重要的是要认识到,大多数机器学习应用并非以与物理系统底层功能完全对齐的明确定义随机变量集的形式出现,“洛卡泰洛解释道。“我们仍想用抽象变量建模这些系统,但没人提供这些变量。因此可能需要学习这些变量以执行因果推理。”

在NeurIPS论文中,最接近因果表征学习主题的是《神经注意力电路》。因果模型通常使用图表示因果关系,神经网络也可以被视为巨大图。研究团队试图通过训练神经网络模仿因果网络结构来明确这种类比。

“这是我们去年的NeurIPS论文的后续工作。灵感来自设计行为更类似因果模型的架构:拥有噪声变量(即数据),以及被函数操纵的变量,它们在图中间简单通信。这个图可以动态变化,例如由于干预导致分布变化时。”

“在第一篇论文中,我们开发了完全这样的架构:拥有一组可以根据数据和问题动态组合的神经函数。函数、路由和函数拼接都是学习得到的。但动态拼接的可扩展性不强。”

“在这项新工作中,我们基本上编译了函数拼接,为每个样本预先决定其通过网络路径和函数组合方式。不是逐层动态处理,而是为整个前向传播做出决定。我们证明这些稀疏学习连接模式改善了分布外泛化。”

成功案例 其他论文涉及更传统的机器学习主题。《自监督非模态视频对象分割》考虑重建被遮挡物体轮廓的问题,这对机器人应用(包括自动驾驶汽车)至关重要。

“我们利用可以在视频中随时间构建物体信息的原则,“洛卡泰洛解释道。“也许在过去帧中看到过现在被遮挡的物体部分。如果能记得以前见过这个物体及其分割掩码,就可以随时间构建分割。”

最后一篇论文《两个头是否等同于一个?识别公平神经网络中的不同处理》考虑训练目标明确设计为最小化不同类型输入偏见的模型。研究发现,这类模型经常通过纯训练(无需人工干预)发展出两个"头”:即学习神经网络中的两个不同路径,一个用于敏感类别输入,一个用于所有其他输入。

研究人员认为,既然网络正在学习两个头,不如直接设计双头架构:在满足相同公平标准的同时提高性能。但这种方法尚未被采纳,因为它违反禁止不同群体不同处理的规则。然而在这种情况下,不同处理可能是确保公平对待的最佳方式。

后两篇论文仅与因果性间接相关。但洛卡泰洛表示:“因果表征学习是一个非常年轻的领域。因此我们正在尝试识别成功案例,我认为这些论文正朝着这个方向前进。”

“很明显,因果性将在未来机器学习中发挥作用,因为机器学习中存在许多开放问题,至少在开始研究因果模型时可以部分解决。我的目标真正是在主流机器学习应用中实现因果模型的好处。这就是为什么其中一些工作不一定关于因果性,而是更接近机器学习。因为最终,这是我们的目标。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计