某中心在ACL 2024会议的研究成果概览
如同整个对话式AI领域一样,某中心在今年计算语言学协会(ACL)会议上发表的论文主要集中在大语言模型(LLMs)的研究工作。那些使LLMs输出如此卓越的特性——如语言流畅性和语义连贯性——也 notoriously 难以量化;因此,模型评估已成为一个特别关注的领域。但某中心的论文探索了广泛的LLM相关主题,从代码合成和自动语音识别等应用,到持续预训练和幻觉缓解等LLM训练和部署问题。
被新创刊的ACL会议录接受的论文标有星号。
代码合成
通过错误注入获得有缺陷的部分代码(摘自《通过微调语言模型联合重写和补全潜在错误代码》)
持续预训练
高效持续预训练用于构建领域特定大语言模型*
数据质量
网络内容中机器翻译比例惊人:来自多向并行性的洞察*
文档摘要
摘要-源文对齐的力量
幻觉缓解
通过事实一致性模型学习生成带引用的答案
意图分类
你的模型能区分否定和含义吗?揭示意图编码器的挑战
反讽识别
MultiPICo:多语言视角主义反讽语料库
知识基础
图思维链:通过在图上的推理增强大语言模型
MATTER:使用异构知识源的记忆增强变换器*
遍历树:用于通过知识图谱增强黑盒语言模型的零样本推理算法
LLM解码
BASS:批量注意力优化的推测采样*
机器翻译
拼写错误查询对翻译和产品搜索的影响
微调悖论:提升翻译质量而不牺牲LLM能力
模型编辑
传播与陷阱:通过反事实任务进行基于推理的知识编辑评估
模型评估
贝叶斯提示集成:黑盒大语言模型的模型不确定性估计
ConSiDERS—人类评估框架:重新思考生成式大语言模型的人类评估
LLMs的事实置信度:关于当前估计器的可靠性和鲁棒性
微调的机器翻译指标在未见领域表现不佳
测量检索增强生成的问答难度
模型鲁棒性
极端未校准和对抗鲁棒性的错觉
多模态模型
CaMML:面向大模型的上下文感知多模态学习器
基于大语言模型的语音识别的多模态检索
REFINESUMM:用于生成多模态摘要数据集的自我精炼MLLM
序数分类
探索文本分类中的序数性:显式和隐式技术的比较研究
问答
超越边界:在结构化和非结构化信息源上进行类人问答*
MinPrompt:基于图的最小提示数据增强用于少样本问答
使用自动响应分割从未标记文档合成对话
推理
通过代码从LLMs中引发更好的多语言结构化推理
II-MMR:识别和改进视觉问答中的多模态多跳推理*
推荐系统
生成式探索-利用:使用LLM优化器的生成式推荐系统的无训练优化
将客观产品属性转化为客户语言
负责任AI
SpeechGuard:探索多模态大语言模型的对抗鲁棒性
文本补全
通过字符匹配实现子词补全的令牌对齐*