EMNLP 2023技术研究全景
自然语言理解(NLU)一直是某中心在自然语言处理实证方法会议(EMNLP)上发表论文的核心焦点。在今年的会议上,NLU研究特别关注大语言模型(LLM)的能力挖掘。问答系统仍是活跃的研究方向,而查询重构和文本摘要成为新的重点领域。
核心技术方向
自动语音识别
- AdaBERT-CTC:利用BERT-CTC实现纯文本领域的ASR自适应
持续学习
- 联邦学习中协同回放样本选择方法
数据提取
- InsightNet:从客户反馈中挖掘结构化洞察
- 面向属性值提取的知识选择性预训练
文档理解
- 多模态多语言文档图像分类基准
- 基于复杂类描述的文本分类语义匹配
少样本学习
- 基于指令微调语言模型的自动化少样本分类
信息检索
- 基于深度度量学习的层次化排序产品检索
- 通过知识蒸馏提升电商语义匹配实时性
指令调优
- CESAR:多轮对话组合指令自动归纳框架
LLM幻觉检测
- INVITE:自动生成无效问题评估LLM幻觉的测试平台
自然语言处理
- NameGuess:表格数据列名扩展技术
自然语言理解
- 基于解纠缠和词属性的大语言NER模型对抗鲁棒性
- 上下文学习中对话到API约束违规的测量与缓解
- 多语言细粒度命名实体识别数据集MultiCoNER v2
- 面向零样本/少样本意图分类的意图感知编码器预训练
个性化技术
- 语音对话系统中基于全局索引的个性化稠密检索
- 大规模目录下的ASR个性化检索复制技术
查询重构
- 多语言对话AI的跨语言增强查询重构
- 图神经网络与大语言模型结合的协同过滤方法
- 基于用户偏好反馈学习的上下文查询重写优化
问答系统
- 开放域对话问答的强效基线方法
- 生成模型在抽取式NLP任务中的分词一致性研究
- 基于证据的产品信息过滤技术
推理技术
- XoT框架:集成思维链、程序思维和方程思维的多样化推理方法
文本摘要
- 通过校准蒸馏增强摘要模型抽象性
- 可控可读性级别的摘要生成
- 基于能量函数的文本摘要一致性改进
- 产品标题摘要的指令调优LLM方法
- 存在有害内容时的多文档摘要评估
主题建模
- DeTiME:基于编码器-解码器LLM的扩散增强主题建模
研究领域覆盖
- 对话式AI
- 云计算与系统
- 计算机视觉
- 机器学习
- 量子技术
- 机器人技术
- 安全隐私与滥用防护
- 可持续性发展
以上研究成果展示了在自然语言处理领域的技术创新和实际应用,为相关技术的发展提供了重要参考。