摘要
数字原生PDF文档的自动布局分析由于文本与非文本元素的异构排列以及便携式文档格式中文本元数据的不精确性,仍然是一个具有挑战性的问题。本研究对图神经网络(GNN)架构在数字原生文档文本块细粒度布局分类任务中的表现进行了基准测试。引入了两种图构建结构:k近邻图和全连接图,并通过预训练文本与视觉模型生成节点特征,从而避免了手动特征工程。评估了三种实验框架:单模态(文本或视觉)、拼接多模态和双分支多模态。研究了四种基础GNN模型并与基线进行比较。实验特别在丰富的公共事务文档数据集上进行,包含20多个来源(如区域和国家级别官方公报)、37K份PDF文档,总计441K页面。结果表明,在双分支配置中运行于k近邻图上的GraphSAGE实现了最高的每类和整体准确率,在某些来源上优于基线。这些发现证实了通过GNN利用局部布局关系和 multimodal 融合对分析数字原生文档布局的重要性。
方法
图构建
采用两种图结构构建方法:
- k近邻图:基于空间邻近关系构建局部连接
- 全连接图:建立全局连接关系
特征生成
- 通过预训练文本模型提取文本特征
- 通过预训练视觉模型提取视觉特征
- 避免手动特征工程过程
实验框架
评估三种多模态融合策略:
- 单模态框架:仅使用文本或视觉特征
- 拼接多模态:直接拼接文本和视觉特征
- 双分支多模态:分别处理文本和视觉特征后进行融合
实验结果
在包含37,000份文档、441,000页的大型公共事务数据集上进行了全面评估:
- GraphSAGE在k近邻图结构中表现最佳
- 双分支多模态配置显著提升分类准确率
- 在某些文档来源上超越基线方法
- 证实局部布局关系和 multimodal 融合的重要性
结论
本研究证明了图神经网络在文档布局分析任务中的有效性,特别是采用k近邻图结构和双分支多模态融合的GraphSAGE模型展现了最优性能,为数字文档的自动分析提供了新的技术方案。