重新审视"苦涩的教训":领域知识与通用方法的辩证关系

本文探讨了AI研究中领域知识与通用方法的关系,分析了模型构建过程中如何平衡两者,并指出评估环节的重要性,强调领域知识在构建实用AI模型中的关键作用。

“苦涩的教训"是错的?嗯…某种程度上

TL;DR

  • 领域知识与"利用数据+计算的通用方法"之间不存在二分法
  • 两者都是强大的工具,在模型构建过程中需要相互补偿、平衡和权衡

“苦涩的教训"简介

“苦涩的教训"是AI研究领域最受欢迎的观点文章之一。Rich Sutton在文中将AI研究分为两个主要学派:

  1. 基于"人类知识"的研究
  2. 基于规模化方法(如"学习和搜索”)的研究,这些方法随着更多数据和计算资源而扩展

Sutton声称,几乎所有AI的长期进展都是通过后者实现的,而前者实际上是有害且分散注意力的。

错误的结论

许多读者得出的结论是"你不需要人类知识,只需使用依赖数据+计算的方法”。

但作者认为这种二分法在现实中不可能存在。

反驳论点

  • 没有纯靠"人类知识"构建的机器学习模型——否则它就是硬编码算法
  • 同样,没有任何机器学习模型能在完全没有"人类知识"的情况下创建,因为:
    1. 模型仍然由做出设计决策的人类设计
    2. 没有人类指导,模型无法学习有用的东西

评估的重要性

模型评估是模型开发生命周期的重要组成部分,在讨论"人类知识"与"搜索和学习"时必须考虑这一点。

替代理论

整个模型构建过程都由领域知识指导。应用这些知识的方法从"直接"到"影响性"不等:

  • 直接方法:明确编码知识,知识可以直接在代码或数据中看到
  • 影响性方法:在领域模型和模型行为之间创建某种衍生或转换,并在精心选择的"压力点"应用它们来指导模型行为

我们需要在模型生命周期的不同部分多次选择频谱上的"操作点”。

实际案例:LLM构建生命周期

可以看到从广泛的"影响性"方法开始,逐渐增加领域知识和判断的明确性:

  1. 大规模、多样化数据集的自监督学习
  2. 希望模型表现更好的子领域中的精选数据集(如教科书、编程竞赛等)
  3. 人类反馈、标签和偏好
  4. 防护栏和各种对齐技术
  5. 使用高度精选的领域特定数据和工具进行评估

总结

随着时间的推移,随着我们找到更多为模型提供大规模监督的方法,我们可能会进一步向"影响性"端移动。但这将是一个漫长的过程。

在当前和可预见的未来,领域知识仍然是构建有用AI模型的关键部分。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计