大语言模型时代下的计算语言学进展

本文探讨ACL 2023会议中大语言模型的核心议题,包括幻觉问题解决方案、事实准确性提升方法、训练数据优化策略,以及人类反馈强化学习在模型改进中的应用,展现计算语言学领域的最新研究方向。

ACL 2023:大语言模型时代的计算语言学

今年计算语言学协会(ACL)会议上,大语言模型成为核心议题。某中心Alexa AI高级首席科学家、ACL大会主席指出:“本届会议设立多个大语言模型专题讨论,这是往届会议从未有过的安排。两场主题演讲均涉及该领域。”

据ACL官网信息,图灵奖得主将探讨"当前多模态大语言模型是否具有主观体验"的争议性议题,另一位加州大学伯克利分校心理学教授则以"作为文化技术的大语言模型"为题发表演讲。大会还设置了大语言模型专题讨论组和自然语言处理伦理分会场。“这些议题不仅受到学术界的关注,全社会都在审视这些技术发展及其社会影响。”

幻觉问题应对策略

大语言模型最显著的问题在于其容易产生"幻觉"——生成看似合理实则错误的断言。目前研究人员主要通过三种方式应对该问题:

后处理验证机制 通过知识检索组件对模型输出进行事实核查。当模型声称"乔拜登是现任总统"时,系统会搜索可信来源,通过蕴含模型检查文本一致性。但当前错误率仍然较高,即使简单判断两段文本是否同义仍属未完全解决的NLP难题。

训练数据优化 模型使用数万亿token进行训练(token指单词、多词单元或子词单元)。提升模型准确性的首要步骤是确保训练数据的高质量。

激活编辑技术 通过修改已训练模型的内部工作机制引导输出趋向事实准确。大语言模型通过计算序列中下一个token的概率工作,每个网络层包含数十个注意力头决定历史token的权重分配。改进事实准确性的方法包括:

  • 识别与真实性高度相关的稀疏注意力头集合
  • 沿真实相关方向进行推理干预(激活偏移)
  • 通过参数修改减少幻觉的各种方法

显式知识 grounding 同样可应对幻觉问题:先应用知识检索组件,使大语言模型基于相关文档生成响应。

代理训练的挑战

防止幻觉的困难与模型训练方式密切相关。大语言模型采用输入掩码训练,随机删除输入句子中的词语让模型补充。掩码自动完成,输出误差易于计算。但明确训练模型实现事实准确性会使过程复杂化。

“研究者发现预测token是许多下游用例的有效代理。这构建了基础模型,在此基础上可改进其指令遵循能力和多任务性能。但改变基础模型、添加额外训练损失目标既困难又计算昂贵。”

通过带有人类反馈的奖励模型持续改进预训练后模型是合理方向。人类反馈强化学习是改进LLM性能的流行方法,训练过程中模型寻求人类反馈来区分低概率选择。

“如果关注事实错误,可使模型沿这些维度优化。虽然模型在这些维度的性能正在提升,但接受标准非常高。从分类角度看95%的准确率似乎很高,但在搜索场景中,单个错误就会导致用户质疑答案准确性。”

社会适应与技术演进

随着研究者逐步提升大语言模型的事实准确性,公众也需要更好地掌握使用方法。“用户态度和企业策略都可能改变。人们将大语言模型视为在线新闻源一样的使用工具,自行进行事实核查。这涉及伦理讨论:全社会都在审视这个新工具——应该将其视为绝对真理,还是作为需要二次核查的辅助工具?人们正在学习如何与这些技术和谐共处。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计