新型预训练任务实现更优文档理解
DocFormerv2利用局部特征理解文档,性能超越更大型模型。
在数字时代,文档以前所未有的速度生成和分发,自动理解文档变得至关重要。例如从发票中提取付款信息或数字化历史记录等任务,布局和手写注释在理解上下文时扮演重要角色。这些场景突显了文档理解的复杂性,不仅需要识别文本,还需解读视觉元素及其空间关系。
在人工智能促进协会年会(AAAI 2024)上提出的DocFormerv2模型不仅能阅读文档,还能理解文档,以模仿人类理解的方式同时处理文本和视觉信息。正如人类可能通过布局、标题、文本和相关表格推断报告要点,DocFormerv2通过综合分析这些元素来掌握文档的整体信息。
创新架构与训练任务
与前辈模型不同,DocFormerv2采用基于Transformer的架构,擅长捕捉文档中的局部特征——如字体样式、段落排列方式或图片与文本的相对位置等细小而具体的细节。这意味着它能以比先前模型更高的准确度识别布局元素的重要性。
DocFormerv2的突出特点是使用自监督学习,这种方法被当今许多最成功的人工智能模型(如GPT)所采用。自监督学习使用未标注数据,使得能够在海量公共数据集上进行训练。在语言建模中,下一词元预测(GPT使用)或掩码词元预测(T5或BERT使用)是常见方法。
除了标准的掩码词元预测外,DocFormerv2还提出两个额外任务:词元到行预测(token-to-line)和词元到网格分配(token-to-grid)。这些任务旨在深化模型对文本与其在文档中空间排列之间复杂关系的理解。
词元到行任务
词元到行任务训练DocFormerv2识别文本元素如何在行内对齐,使其理解超越单纯词汇,包含文档中文本的流动和结构。这基于一个直觉:表单中键值预测或视觉问答(VQA)所需的大部分信息位于文档的同一行或相邻行。例如,要预测"总计"值(框a),模型必须查看同一行(框d,"$4.32")。通过此类任务,模型学会重视词元相对位置信息及其语义含义。
词元到网格任务
语义信息在文档的不同区域有所变化。例如,财务文档可能在顶部有页眉,中间有可填写信息,底部有页脚或说明。页码通常位于文档顶部或底部,而收据或发票中的公司名称常出现在顶部。准确理解文档需要识别其内容如何在特定视觉布局和结构中组织。基于此直觉,词元到网格任务将文本语义与其在文档中的位置(视觉、空间或两者)配对。具体而言,在文档上叠加网格,每个OCR词元被分配一个网格编号。在训练期间,DocFormerv2的任务是预测每个词元的网格编号。
目标任务与影响
在涵盖各种文档理解任务的九个不同数据集上,DocFormerv2超越了先前同等规模的模型,甚至优于更大的模型——包括一个比DocFormerv2大106倍的模型。由于文档文本使用OCR模型提取(这些模型确实会产生预测错误),DocFormerv2也比其前辈更能抵抗OCR错误。
DocFormerv2训练的任务之一是表格VQA,这是一项具有挑战性的任务,模型必须回答关于表格的问题(输入为图像、文本或两者)。DocFormerv2相比次优模型实现了4.3%的绝对性能提升。
但DocFormerv2还展示了比其前辈更定性的优势。由于经过训练以理解局部特征,DocFormerv2能正确回答诸如"哪些电台的呼号中没有’k’?“或"有多少所学校服务于克利夫兰罗马天主教教区?“等问题(后一个问题需要计数——这是机器学习模型难以掌握的技能)。
为了展示DocFormerv2的多功能性和泛化能力,还在场景文本VQA上进行了测试,这是一项与文档理解相关但不同的任务。再次,它显著超越了同等规模的前辈模型。
尽管DocFormerv2在解释复杂文档方面取得了重大进展,但仍面临若干挑战和令人兴奋的机遇,如教导模型处理多样化的文档布局和增强多模态集成。