ACL 2024大语言模型研究全景指南

本文全面介绍了某中心在ACL 2024会议上发表的研究成果,涵盖大语言模型评估、代码合成、持续预训练、多模态学习等前沿技术领域,重点探讨了模型评估、幻觉缓解、知识图谱增强等关键技术挑战与创新解决方案。

某中心在ACL 2024会议的研究成果概览

如同整个对话式AI领域一样,某中心在今年计算语言学协会(ACL)会议上发表的论文主要集中在大语言模型(LLMs)的研究工作。那些使LLMs输出如此卓越的特性——如语言流畅性和语义连贯性——也 notoriously 难以量化;因此,模型评估已成为一个特别关注的领域。但某中心的论文探索了广泛的LLM相关主题,从代码合成和自动语音识别等应用,到持续预训练和幻觉缓解等LLM训练和部署问题。

被新创刊的ACL会议录接受的论文标有星号。

代码合成

通过错误注入获得有缺陷的部分代码(摘自《通过微调语言模型联合重写和补全潜在错误代码》)

持续预训练

高效持续预训练用于构建领域特定大语言模型*

数据质量

网络内容中机器翻译比例惊人:来自多向并行性的洞察*

文档摘要

摘要-源文对齐的力量

幻觉缓解

通过事实一致性模型学习生成带引用的答案

意图分类

你的模型能区分否定和含义吗?揭示意图编码器的挑战

反讽识别

MultiPICo:多语言视角主义反讽语料库

知识基础

图思维链:通过在图上的推理增强大语言模型

MATTER:使用异构知识源的记忆增强变换器*

遍历树:用于通过知识图谱增强黑盒语言模型的零样本推理算法

LLM解码

BASS:批量注意力优化的推测采样*

机器翻译

拼写错误查询对翻译和产品搜索的影响

微调悖论:提升翻译质量而不牺牲LLM能力

模型编辑

传播与陷阱:通过反事实任务进行基于推理的知识编辑评估

模型评估

贝叶斯提示集成:黑盒大语言模型的模型不确定性估计

ConSiDERS—人类评估框架:重新思考生成式大语言模型的人类评估

LLMs的事实置信度:关于当前估计器的可靠性和鲁棒性

微调的机器翻译指标在未见领域表现不佳

测量检索增强生成的问答难度

模型鲁棒性

极端未校准和对抗鲁棒性的错觉

多模态模型

CaMML:面向大模型的上下文感知多模态学习器

基于大语言模型的语音识别的多模态检索

REFINESUMM:用于生成多模态摘要数据集的自我精炼MLLM

序数分类

探索文本分类中的序数性:显式和隐式技术的比较研究

问答

超越边界:在结构化和非结构化信息源上进行类人问答*

MinPrompt:基于图的最小提示数据增强用于少样本问答

使用自动响应分割从未标记文档合成对话

推理

通过代码从LLMs中引发更好的多语言结构化推理

II-MMR:识别和改进视觉问答中的多模态多跳推理*

推荐系统

生成式探索-利用:使用LLM优化器的生成式推荐系统的无训练优化

将客观产品属性转化为客户语言

负责任AI

SpeechGuard:探索多模态大语言模型的对抗鲁棒性

文本补全

通过字符匹配实现子词补全的令牌对齐*

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计