摘要
最高审计机构(SAIs)被视为发展中国家反腐败工作的重要组成部分。这些机构审查政府预算并在公开的审计报告中报告财政差异。这些文件包含有关预算差异、缺失资源甚至欺诈和腐败的宝贵信息。现有关于反腐败工作的研究依赖于国家级SAIs发布的信息,而大多忽略了地方SAIs的审计报告,因为这些信息未以可访问的格式发布。
本文收集了墨西哥某州SAI公开的审计报告,并构建了一个从市政预算中提取差异金额的流程。通过光学字符识别(OCR)将扫描文档转换为机器可读文本,然后训练分类模型识别包含相关信息的段落。从相关段落中,通过开发命名实体识别器自动提取预算差异的金额。
方法
- 文档收集与OCR处理:使用网络爬虫下载审计报告,并通过OCR将扫描的PDF转换为文本。
- 文本分类:将文档拆分为段落,训练逻辑回归模型区分相关与非相关段落。
- 命名实体识别(NER):从相关段落中提取“pliegos de observaciones”(预算差异)及其金额。
结果
流程最终生成包含125个观测值的数据集,涵盖18个市政当局8年间的审计差异数据。分析表明,差异金额平均占市政预算的4%,且前一年的差异对后续年份有显著正向影响。
政策意义
该方法为改革者和政策制定者提供了详细的市政财政数据,有助于追踪和管理财政违规行为。技术流程可推广至其他语言和上下文环境中的审计报告。
技术架构
- OCR工具:
textract
和tesseract
- 文本分类:基于
Prodigy
标注工具训练的模型(F1分数0.91) - NER模型:使用
Spacy
训练(F1分数0.93)
结论
通过自然语言处理技术,本文实现了从非结构化审计报告中自动化提取财政数据,为反腐败研究和政策制定提供了新的数据支持。