神经信息处理系统会议:因果表征学习或成AI未来关键
在2021年神经信息处理系统会议(NeurIPS)前夕,某中心副总裁兼杰出科学家Bernhard Schölkopf(根据谷歌学术统计,因果推断领域被引次数最高的研究者)指出,人工智能研究的下一前沿将是因果表征学习。现有因果推断方法使用机器学习发现变量间的因果关系(例如网站中相互关联服务的延迟),而因果表征学习则直接学习变量本身。“这类因果表征将推动推理能力发展,若想摆脱纯模式识别的智能观,这终将是必备能力”,Schölkopf表示。
某机构云服务部门高级应用科学家Francesco Locatello领导着该机构在因果表征学习方面的研究,他是今年NeurIPS四篇论文的合著者。其中《迁移学习中的分布外泛化测试》涉及因果推断在机器学习中最引人注目的应用之一:将基于特定概率分布数据训练的模型泛化到具有不同分布的真实世界数据。
“进行标准机器学习时,是从某个概率分布中抽取独立样本,然后训练能泛化到相同分布的模型”,Locatello解释道,“这是用单一概率分布描述物理系统。因果模型不同之处在于,它通过对干预结果建模来覆盖物理系统所有可能状态。因此不是单一分布,而是获得一组分布。”
“测试数据来自不同分布意味着什么?底层物理系统相同,因果结构相同,只是遇到了未见的新干预。测试分布虽与训练分布不同,但并非任意分布——由于受因果结构约束,这是有明确意义的真实世界可能分布。”
在《迁移学习中的分布外泛化测试》中,“我们收集了大量针对以下场景构建或适配的数据集:仅拥有极窄数据集用于迁移学习,却要面对各种分布外测试数据。系统评估文献中的不同方法并进行公平比较。“尽管论文中审视的方法均未明确考虑因果性,但"因果方法终应能在此基准测试中表现更优,这将帮助我们评估研究进展。这正是我们构建该基准的原因。”
神经电路与现代架构创新
当今神经网络默认进行表征学习:输入通常是原始数据,通过训练学习数据中对任务最有用的方面。正如Schölkopf去年谈话所指,因果表征学习旨在让因果机器学习模型达到传统模型水平。
“关键要认识到,大多数机器学习应用并非以完美契合物理系统底层运行机制的明确定义随机变量集形式出现”,Locatello说明,“我们仍希望用抽象变量建模这些系统,但无人提供这些变量。因此可能需要通过学习获得变量以执行因果推断。”
在其与同事的NeurIPS论文中,最接近因果表征学习主题的是《神经注意力电路》。因果模型通常用图表征因果关系,神经网络亦可视为巨型图。Locatello团队尝试通过训练神经网络模仿因果网络结构,使这种类比显式化。
“这是去年NeurIPS论文的后续工作。设计灵感是创建行为更类似因果模型的架构:存在噪声变量(即数据),还有被函数操纵的变量,它们通过图结构相互通信。该图可因干预等原因动态变化。”
“在第一篇论文中,我们开发了完全符合此行为的架构:拥有一组可根据数据和问题动态组合的神经函数。函数、路由和函数拼接均通过学习获得。但动态拼接扩展性不佳。”
“新工作中,我们本质上编译了函数拼接流程,为每个样本预先决定其在网络中的传输路径和函数组合方式。不再逐层动态处理,而是整体决定前向传播。我们证明这种稀疏学习连接模式能改善分布外泛化。”
成功案例与多领域应用
Locatello的其他NeurIPS论文涉及更传统的机器学习主题。《自监督非模态视频对象分割》研究被遮挡物体轮廓重建问题,这对自动驾驶等机器人应用至关重要。
“利用视频中随时间积累物体信息的原则:过去帧中可能见过当前被遮挡的部件。若能记忆先前见过的物体及其分割掩码,就能随时间逐步构建分割结果。”
最终论文《双头等同于单头?识别公平神经网络中的差异处理》研究 explicitly 为最小化不同类型输入偏差而设计的模型。Locatello团队发现,此类模型常通过纯训练(无需人工干预)发展出两个"头”:即学习神经网络中两条不同通路,一条处理敏感类别输入,一条处理其他所有输入。
研究者认为,既然网络总会学习双头,不如直接设计双头架构:在满足相同公平标准前提下提升性能。但该方法因违反禁止差异对待的规则尚未被采纳。然而在此案例中,差异对待可能是保证公平处理的最佳方式。
后两篇论文仅与因果性间接相关。但Locatello表示:“因果表征学习是非常年轻的领域。我们正努力寻找成功案例,这些论文正朝此方向迈进。”
“显然因果性将在未来机器学习中扮演重要角色,因为机器学习中许多开放问题至少能通过因果模型得到部分解决。我的目标是将因果模型优势实现到主流机器学习应用中。因此部分工作未必直接关于因果性,而更接近机器学习——因为这终究是我们的目标。”