图神经网络在公文文档布局分析中的基准测试

Sat, 20 Sep 2025 03:35:04 +0800

摘要

数字原生PDF文档的自动布局分析由于文本与非文本元素的异构排列以及便携式文档格式中文本元数据的不精确性，仍然是一个具有挑战性的问题。本研究对图神经网络（GNN）架构在数字原生文档文本块细粒度布局分类任务中的表现进行了基准测试。引入了两种图构建结构：k近邻图和全连接图，并通过预训练文本与视觉模型生成节点特征，从而避免了手动特征工程。评估了三种实验框架：单模态（文本或视觉）、拼接多模态和双分支多模态。研究了四种基础GNN模型并与基线进行比较。实验特别在丰富的公共事务文档数据集上进行，包含20多个来源（如区域和国家级别官方公报）、37K份PDF文档，总计441K页面。结果表明，在双分支配置中运行于k近邻图上的GraphSAGE实现了最高的每类和整体准确率，在某些来源上优于基线。这些发现证实了通过GNN利用局部布局关系和 multimodal 融合对分析数字原生文档布局的重要性。

文档布局分析 on 办公AI智能小助手

图神经网络在公文文档布局分析中的基准测试

摘要