大语言模型时代的计算语言学前沿

本文探讨ACL 2023会议上关于大语言模型的核心议题,包括幻觉问题的多种解决方案、事实核查技术、训练数据优化方法以及人类反馈强化学习等前沿技术进展,涉及知识检索、激活编辑和概率分布调整等技术细节。

ACL 2023:大语言模型时代的计算语言学

随着大语言模型(LLM)的普及,它们成为今年计算语言学协会(ACL)会议的主要讨论话题。

某中心Alexa AI高级首席科学家、ACL大会主席指出:“今年设置了多个关于大语言模型的专题会议,这在过去是从未有过的。两个主题演讲也都与此相关。”

根据ACL官网信息,其中一位主题演讲者将探讨"当前多模态LLM是否具有主观体验"这一争议性问题,另一位演讲者则将讨论"作为文化技术的大语言模型"。

此外还设置了关于大语言模型的专题讨论会,以及关于伦理与自然语言处理(NLP)的会议环节。“这些都是整个领域关注的问题,不仅仅是学术界,全世界都在关注这些技术发展及其社会影响。”

幻觉问题

大语言模型的主要问题之一是其"幻觉"倾向,即生成听起来合理但实际错误的断言。目前研究人员正通过多种方式解决这个问题:

后处理验证:通过知识检索组件对系统输出进行事实核查。例如当模型声称某人物是现任总统时,可以搜索可信来源,然后使用类似于蕴含模型的事实核查模型来检查一致性。但目前错误率仍然较高,即使只是判断两段文本是否表达相同含义,这仍是NLP领域未完全解决的问题。

训练数据优化:通过精心筛选用于训练LLM的数据质量。这些模型使用数万亿个词符进行训练,控制模型信息的第一步就是确保数据质量。

激活编辑:通过修改已训练模型的内部工作机制来引导输出更准确的事实。LLM通过计算词符序列中下一个词符的概率工作,注意力头决定在计算下一个词符概率时应该如何加权过去的词符。提高事实准确性的方法包括激活编辑,这种方法不改变训练好的模型,而是使用不同策略改变推理或预测结果。

最近的一篇论文首先识别与真实性高度相关的一组稀疏注意力头,然后执行"推理干预":沿着这些与真实相关的方向移动激活。还有各种方法通过改变模型参数来减少幻觉。

显式知识 grounding:首先应用知识检索组件,然后LLM将其响应基于相关文档。

代理训练挑战

防止幻觉的一个困难与LLM的训练方式有关。LLM训练使用输入掩码,随机移除输入句子中的词语,让LLM补充完整。掩码是自动完成的,输出错误很容易计算。但明确训练模型以提高事实准确性会使情况复杂化。

“人们发现预测词符是许多下游用例的良好代理,这建立了基础模型,然后可以在此基础上改进,使其遵循指令并执行各种任务。但改变基础模型,添加额外的训练损失目标是很困难的,而且计算成本很高。”

通过带有人类反馈的奖励模型在预训练后持续改进这些模型是合理的方法。带有人类反馈的强化学习是提高LLM性能的流行方法,在训练过程中,模型寻求人类反馈来区分它分配低概率的选择。

“如果关心事实错误,可以让模型沿着这些维度进行优化。模型在这些维度上的性能正在提高,只是接受标准非常高。比如说95%的准确率从分类的角度来看似乎很高,但在搜索中,如果出现一个错误,人们就会说’你在提供错误答案’,这就是问题。”

随着研究人员找到逐步提高LLM事实准确性的方法,公众也在更好地学习如何使用它们。“也许用户会改变态度,公司也会改变。人们使用LLM时看到一些错误,会自己做事实核查。就像对待任何在线新闻来源一样。这关系到我们的伦理专题讨论:整个社会都在关注这个新工具。我们应该如何对待这些东西?是将其视为绝对真理,还是将其视为提供信息的工具并需要二次核查?人们正在尝试理解这些事物并与之和谐共处。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计