会议信息
会议名称:EMNLP 2021
技术内容概述
某中心研究人员在EMNLP 2021上发表的23篇论文主要集中于两个技术方向:自然语言理解(即文本语义解析)和问答系统,这些技术在包括智能助手、云服务和电商平台在内的多个业务领域具有重要应用价值。其余10篇论文涵盖自学习、信息检索、语言建模和机器翻译等多个技术方向。
自然语言理解技术
在自然语言理解领域,研究人员应用了多种技术方法:
- 半监督学习、少样本学习和对比学习等技术
- 应用于视觉指代表达识别(识别图像中自然语言表达式所指对象)
- 共指消解(判断不同术语是否指向同一实体)
- 分布偏移处理(推理时数据分布与训练集不匹配的问题)
具体论文贡献:
- 《MetaTS:最小监督下的多语言序列标注元师生网络》提出动态调整伪标注策略的师生框架
- 《多领域口语理解中反事实bandit学习的反馈归因》
- 《通过最近邻少样本学习实现跨语言分类》
- 《开放世界分类的分布偏移实例处理》
- 《句子表示的成对监督对比学习》
- 《跨文档共指消解的顺序处理》
问答系统技术
在问答系统领域的技术突破包括:
- 对话AI智能体在客户交互中建议后续问题
- 不可回答问题过滤以节约系统资源
- 少样本学习方法创新
技术实现亮点: 《FewshotQA:基于预训练文本到文本模型的问答任务少样本学习框架》将少样本问答任务形式化为微调期间的掩码跨度填充,使系统能够在使用预训练目标的同时保持极高的样本效率。
其他重要论文:
- 《使用可微分知识图的端到端实体解析与问答》
- 《通过可微分奖励模仿学习生成自包含且以摘要为中心的问题答案对》
- 《基于参考的弱监督答案句子选择》
其他技术方向
机器翻译公平性
某云服务研究人员关注机器翻译模型中的性别偏见缓解问题:
- 《GFST:翻译中更准确性别处理的性别过滤自训练方法》
信息检索技术
- 对话式搜索的集成模型
- 产品评论中反事实声明的识别 《端到端对话式购物搜索》研究 utterance 转移技术 《多语言反事实检测数据集》针对产品评论中的误导性情感表达
语言建模优化
- 语法学习所需的预训练数据量研究
- 使用最优传输作为多语言上下文嵌入微调的对齐目标
机器翻译改进
智能助手团队结合数据混合和弹性权重 consolidation 技术,提升机器翻译模型在新任务上的适应能力: 《神经机器翻译多领域适应的质量权衡改进》
paraphrase生成
通过改变句子表面形式同时保持语义内容,为其他自然语言处理任务提供训练数据增强: 《弱监督paraphrase生成的选择性学习》
自学习技术
利用隐式反馈信号自动改进机器学习模型,无需人工干预: 《基于隐式用户反馈的大规模对话AI系统自然语言理解改进框架》 《对话系统中减少摩擦的上下文重述检测》
文本摘要技术
某云服务团队研究对话场景下的文本摘要特殊挑战: 《对话摘要的技巧集合》