征服PDF:超越纯文本的文档理解
自然语言处理和数据科学本可以很简单——如果所有数据都以干净的纯文本形式呈现。但实际上,大量数据隐藏在PDF、Word文档、扫描文件和其他难以处理的格式中。本次分享将介绍一种新颖的模块化方法,用于构建强大的文档理解系统,采用最先进的模型和强大的Python生态系统。
通过实际案例,将展示如何从PDF提取结构化数据,甚至为特定用例构建完全定制化的信息提取流程。演示将使用spaCy和新型Docling库及布局分析模型。内容涵盖基于图像文本的光学字符识别(OCR)、表格数据转换为pandas DataFrame的方法,以及为文本分类和实体识别等任务创建训练和评估数据的策略。
技术资源
从PDF到AI就绪的结构化数据:深度解析 https://explosion.ai/blog/pdfs-nlp-structured-data 基于本次演讲的博客文章,详细介绍如何为行业用例构建端到端文档理解和信息提取流程。
Docling https://docling-project.github.io/docling/ 开源库和模型,用于处理PDF、Word文档及类似格式,包含布局分析、OCR和表格结构识别功能。
spaCy Layout https://github.com/explosion/spacy-layout 基于Docling的开源库和spaCy插件,用于处理PDF和Word文档。
Prodigy PDF https://prodi.gy/docs/plugins#pdf Prodigy标注工具的插件,包含基于图像和文本的PDF标注方案。
Docling技术报告 https://arxiv.org/abs/2408.09869 Auer等人,2024年
TableFormer:基于Transformers的表格结构理解 https://arxiv.org/abs/2203.01017 Nassar等人,2022年
人机协同蒸馏实用指南 https://explosion.ai/blog/human-in-the-loop-distillation 关于在实际应用中使用最新模型并将其知识蒸馏到可在内部运行维护的更小组件的实用解决方案。
技术要点
- 使用统一结构化格式尽早从PDF中提取数据
- 将文档处理与可独立开发的NLP组件相结合
- 布局分析模型正变得更好、更快、更小
- 构建模块化信息提取流程的技术方法
- 支持OCR处理、表格识别和自定义标注工作流