新型预训练任务提升文档理解能力

介绍DocFormerv2模型如何通过创新的token-to-line和token-to-grid预训练任务,在文档理解任务中超越更大规模的模型,实现文本与视觉元素的联合理解。

在数字时代,文档以空前速度生成和传播,自动理解文档变得至关重要。从发票中提取付款信息或数字化历史记录等任务,布局和手写笔记对理解上下文起着重要作用。这些场景凸显了文档理解的复杂性,不仅需要识别文本,还需解释视觉元素及其空间关系。

在今年的人工智能促进协会会议(AAAI 2024)上,提出了名为DocFormerv2的模型。该模型不仅能阅读文档,还能理解文档,以模仿人类理解的方式处理文本和视觉信息。例如,就像人们可能通过布局、标题、文本和相关表格推断报告的关键点一样,DocFormerv2通过综合分析这些元素来把握文档的整体信息。

与之前的模型不同,DocFormerv2采用基于Transformer的架构,擅长捕捉文档中的局部特征——如字体样式、段落排列方式或图片与文本的相邻位置等小而具体的细节。这意味着它可以比以前的模型更准确地识别布局元素的重要性。

DocFormerv2的一个突出特点是使用自监督学习,这是当今许多最成功AI模型(如GPT)采用的方法。自监督学习利用未标注数据进行训练,可以在庞大的公共数据集上进行训练。在语言建模中,例如GPT使用的下一词预测或T5/BERT使用的掩码词预测是常见的方法。

对于DocFormerv2,除了标准的掩码词预测外,还提出了两项额外任务:token-to-line预测和token-to-grid分配。这些任务旨在加深模型对文本与其在文档中空间排列之间复杂关系的理解。

Token-to-line任务训练DocFormerv2识别文本元素如何在行内对齐,使其理解不仅限于单词,还包括文本在文档中的流动和结构。这基于一个直觉:表单中的键值预测或视觉问答(VQA)所需的大部分信息位于文档的同一行或相邻行上。

Token-to-grid任务将文本的语义与其在文档中的位置(视觉、空间或两者)配对。具体来说,在文档上叠加一个网格,每个OCR词被分配一个网格编号。在训练期间,DocFormerv2的任务是预测每个词的网格编号。

在涵盖各种文档理解任务的九个不同数据集上,DocFormerv2优于之前规模相当的模型,甚至表现优于大得多的模型——包括一个比DocFormerv2大106倍的模型。由于文档文本是通过OCR模型提取的,这些模型确实会产生预测错误,但DocFormerv2显示出比其前身更强的抗OCR错误能力。

DocFormerv2训练的任务之一是表格VQA,这是一项具有挑战性的任务,模型必须回答关于表格的问题(输入为图像、文本或两者)。DocFormerv2比次优模型实现了4.3%的绝对性能提升。

但DocFormerv2也显示出比其前身更具质的优势。由于它经过训练能够理解局部特征,当被问及“这些站点中哪些的呼号中没有‘k’?”或“有多少学校服务于克利夫兰罗马天主教教区?”(第二个问题需要计数——这是一项难以学习的技能)等问题时,DocFormerv2能正确回答。

为了展示DocFormerv2的通用性和泛化能力,还在场景文本VQA上进行了测试,这是一项与文档理解相关但不同的任务。同样,它显著优于规模相当的前身模型。

尽管DocFormerv2在解释复杂文档方面取得了重大进展,但仍面临一些挑战和令人兴奋的机会,如教导模型处理多样化的文档布局和增强多模态集成。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计