自动事实核查:从表格与文本中寻找证据
2021年11月10日,在第四届事实提取与验证研讨会(FEVER)上,公布了FEVER系列第三届事实核查挑战赛的获胜者。该挑战赛延续了2018年FEVER共享任务和2019年FEVER 2.0“构建-破解-修复”竞赛,标志着一年工作的顶峰,从最新数据集FEVEROUS(基于非结构化与结构化信息的事实提取与验证)的设计开始。
FEVEROUS数据集发布
FEVEROUS数据集与共享任务于2021年5月发布启动,详细信息可在FEVER网站获取。
随着误导性和虚假声明的扩散,尤其是在线环境中,对全自动或辅助事实核查系统的兴趣日益增长。除了检查可能不可靠的声明外,自动事实核查是知识提取和问答的宝贵工具,例如某中心知识团队的工作。找到支持或反驳潜在答案的证据能力,将提高所提供答案的可信度,并允许在后续对话中提供该证据。
自2018年以来,为研究社区提供开发大规模事实核查系统的手段,与剑桥大学、伦敦国王学院和某机构的同事合作,推出了FEVER系列数据集、共享任务和学术研讨会。
FEVEROUS数据集包含87,026个人工构建的事实声明,每个声明均标注有来自维基百科页面的句子和/或表格单元格形式的证据。基于该证据,每个声明被标记为“支持”、“反驳”或“信息不足”。数据集标注项目由某中心资助,FEVER团队设计。
为理解数据集和任务难度,考虑以下两个示例。在左侧示例中,为反驳声明,需要识别包含候选人姓名和所得票数的两个单元格(以及上下文——页面、章节标题和最接近的行/列标题,以深灰色突出显示)。由于这组证据至少反驳了声明的一部分,无需继续。右侧示例中,证据包括来自两个不同页面的两个表格单元格和一个句子,支持该声明。
FEVEROUS包含比原始FEVER数据集更复杂的声明(平均每个声明25.3个词,而FEVER为9.4个),但证据池更完整(整个页面,包括表格,而不仅仅是介绍部分)。这使我们更接近真实场景,同时保持人工设计数据集的实验控制。
虽然与前一个FEVER数据集的最大变化是使用结构化信息作为证据,但还努力提高了标注质量并消除了已知偏差。例如,在原始数据集中,仅声明基线(不考虑证据对声明进行分类的系统)能够获得约62%的准确率,而多数类基线(选择最频繁标签)为33%。这意味着声明根据其包含的词语“泄露”其标签。相比之下,FEVEROUS上的仅声明基线为58%,而多数类基线为56%(三个标签的出现频率不相等)。
与前两个共享任务一样,随FEVEROUS发布了基线方法,以支持研究人员设计事实核查系统并评估任务的可行性。基线使用实体匹配和TF-IDF的组合来提取最相关的句子和表格以检索证据,随后是单元格提取模型,通过线性化表格并将提取视为序列标记任务来返回相关单元格。最后,使用在NLI数据集上预训练并在FEVEROUS训练数据上微调的RoBERTa分类器来预测每个声明的最终标签。
基线FEVEROUS方法设计
今年5月发布了数据集并启动了共享任务。7月下旬,开放了共享任务的最终测试阶段,参与者对盲测集发送预测。在最终测试阶段,收到13个条目,其中6个能够击败基线系统。获胜团队实现了27%的FEVEROUS分数(比基线提高9%)。提交中的主要新兴趋势是使用基于表格的预训练系统(如TaPas)和强调多跳证据检索。
有关参与系统的进一步见解和挑战的更多信息,邀请参加第四届FEVER研讨会的共享任务会话。除了讨论FEVEROUS挑战外,研讨会还将收录与事实验证所有主题相关的研究论文,并邀请该领域领先研究人员的特邀演讲:Mohit Bansal(UNC Chapel Hill)、Mirella Lapata(爱丁堡大学)、Maria Liakata(伦敦玛丽女王大学)、Pasquale Minervini(伦敦大学学院)、Preslav Nakov(卡塔尔计算研究所)、Steven Novella(耶鲁大学医学院)和Brendan Nyhan(达特茅斯学院)。期待在那里见到大家!
研究领域:对话式AI
标签:在线真相与信任、数据集开发、数据提取、自然语言理解(NLU)、表格数据