背景介绍
产品检索系统(如某中心商店使用的系统)常利用商品评论文本来改善查询结果。但此类系统可能被反事实陈述误导,即描述未发生或不可能发生事件的语句。例如反事实陈述“如果这款衬衫有红色版本我本会购买”,其中包含短语“有红色版本”,可能被简单检索系统误认为该衬衫确实有红色版本。
数据集构建
项目启动时,尚无覆盖多语言商品评论中反事实陈述的大规模数据集。研究团队选择对英语、德语和日语商品评论中的句子进行标注。自然语言文本中表达反事实的语句仅占1-2%,因此随机选择句子会导致训练信号稀疏的高度不平衡数据集。
反事实语句可分为两部分:事件陈述(又称前提)和事件结果(又称后果)。通过与专业语言学家合作,编制了包含连接词正常句、连接词反转句、情态命题句及包含“wished”、“hoped”等提示词的句子规范。
数据处理方法
基于预编提示词列表选择句子可能产生数据偏差,因此还选择了不包含提示词但与包含提示词句子高度相似的句子。使用预训练BERT模型计算的句子嵌入向量 proximity 作为相似度度量。
基线模型
将反事实检测建模为二分类任务:给定句子,若表达反事实陈述则分类为正例。实验了多种句子表示方法,包括词袋表示、静态词嵌入表示和上下文词嵌入表示。评估了从逻辑回归、支持向量机到多层感知器的不同分类算法。
实验结果
基于RoBERTa模型并在反事实标注句子上微调的跨语言模型(XLM)整体表现最佳。在新闻反事实检测竞赛数据集上的测试表明,基于商品评论数据集训练的模型表现不佳,说明两类反事实语句存在显著差异。
跨语言应用
针对数据集中包含日语和德语语句的特点,测试了跨语言迁移效果。使用机器翻译系统将德日测试数据译为英语后,英语训练模型表现较差,表明反事实检测具有高度语言特异性。
持续工作
正在研究除反事实之外的其他语言结构过滤方法,并将检测模型扩展至更多语言。