多页文档处理与人工审核技术实现

概述

各行业组织面临大量多页文档的处理挑战，需要智能处理以提取准确信息。尽管自动化技术已改进此过程，但在特定场景中仍需人工专业知识验证数据准确性和质量。

2025年3月，某中心推出了Bedrock数据自动化服务，使开发人员能够从非结构化多模态内容（包括文档、图像、视频和音频）中自动生成有价值的洞察。该服务通过统一的多模态推理API，自动化非结构化内容的提取、转换和洞察生成，简化文档处理工作流，减少数据准备、模型管理、微调、提示工程和编排等耗时任务，以低于替代解决方案的成本提供行业领先的准确性。

Bedrock数据自动化简化了复杂的文档处理任务，包括文档拆分、分类、提取、规范化和验证，同时结合可视化基础与置信度评分以提高可解释性，并内置幻觉缓解机制，从非结构化数据源提供可信洞察。然而，尽管Bedrock数据自动化的高级功能提供了卓越的自动化，但在某些场景中人工判断仍然不可或缺。这时与SageMaker AI的集成创造了强大的端到端解决方案。通过将人工审核循环纳入文档处理工作流，组织可以在保持处理效率的同时维持最高水平的准确性。

通过人工审核循环，组织可以：

在置信度较低时验证AI预测
有效处理边缘案例和异常
通过适当监督保持法规合规性
在最大化自动化的同时保持高准确性
创建反馈循环以随时间改进模型性能

通过战略性地实施人工循环，组织可以将人力注意力集中在文档的不确定部分，同时让自动化系统处理常规提取，在效率与准确性之间创造最佳平衡。

理解置信度评分

置信度评分在确定何时调用人工审核时至关重要。置信度评分是Bedrock数据自动化对提取准确性的确定百分比。目标是简化智能文档处理（IDP），在Bedrock数据自动化内部处理准确性计算的重担，帮助客户专注于解决业务挑战，而非复杂的评分机制。Bedrock数据自动化优化其模型以降低预期校准误差（ECE），这一指标促进更好的校准，从而产生更可靠和准确的置信度评分。

在文档处理工作流中，置信度评分通常解释为：

高置信度（90–100%）– 对提取结果高度确定
中置信度（70–89%）– 合理确定，但存在一定错误可能性
低置信度（<70%）– 高度不确定，可能需要人工验证

建议在特定数据集上测试Bedrock数据自动化，以确定触发人工审核工作流的置信度阈值。

解决方案架构

以下架构提供了使用Bedrock数据自动化和SageMaker AI处理多页文档与人工审核循环的无服务器解决方案。

工作流包括以下步骤：

文档上传到某中心简单存储服务（S3）输入桶，作为通过Bedrock数据自动化处理文档的入口点。
某中心EventBridge规则自动检测S3桶中的新对象，并触发AWS Step Functions工作流，协调文档处理管道。
在Step Functions工作流中，执行bda-document-processor AWS Lambda函数，调用具有适当蓝图的Bedrock数据自动化。Bedrock数据自动化使用这些预配置指令从文档中提取和处理信息。
Bedrock数据自动化分析文档，提取关键字段及相关置信度评分，并将处理后的输出存储到另一个S3桶中。此输出包含提取的信息和相应的置信水平。
Step Functions工作流调用bda-classifier Lambda函数，该函数从S3检索Bedrock数据自动化输出。此函数根据预定义阈值评估提取字段的置信度评分。
对于置信度评分低于阈值的字段，工作流将文档路由到SageMaker AI进行人工审核。使用自定义UI，人工审核任务并验证页面中的字段。审核者可以更正自动化过程错误提取的字段。
人工审核的验证和更正表单数据存储在S3桶中。
一旦SageMaker AI输出写入S3，它将执行bda-a2i-aggregator AWS Lambda，使用人工审核的新值更新Bedrock数据自动化输出的有效负载。此聚合输出存储在S3中，为下游系统提供最终高置信度输出。

先决条件

要部署此解决方案，需要在部署机器上安装AWS Cloud Development Kit（AWS CDK）、Node.js和Docker。构建脚本执行解决方案的打包和部署。

部署解决方案

完成以下步骤以部署解决方案：

将解决方案存储库克隆到部署机器。
导航到项目目录并运行构建脚本：./build.sh

部署将在AWS账户中创建以下资源：

两个新的S3桶：一个用于初始文档上传，另一个用于文档输出
一个Bedrock数据自动化项目和五个用于处理测试文档的蓝图
一个Amazon Cognito用户池，用于某中心SageMaker Ground Truth提供给SageMaker AI的私有劳动力，处理低于置信度评分的数据
两个Lambda函数和一个Step Functions工作流，用于处理测试文档
两个某中心弹性容器注册表（ECR）容器镜像，用于Lambda函数处理测试文档

添加新工作人员到私有劳动力

构建完成后，必须向SageMaker Ground Truth的私有劳动力添加工作人员。完成以下步骤：

在SageMaker AI控制台的导航窗格中，选择Ground Truth下的Labeling workforces，然后选择Private选项卡。
在Workers部分，选择Invite new workers。
对于Email addresses，输入要邀请的工作人员的电子邮件地址。
选择Invite new workers。
工作人员添加后，他们将收到带有临时密码的电子邮件。此过程可能需要最多5分钟才能收到电子邮件。
在Labeling workforces页面的Private workforce summary部分，选择Labeling portal sign-in URL的链接。
在提示中输入用于设置工作人员的电子邮件地址和电子邮件中的临时密码，然后选择Sign In。
在提示时提供新密码。
将被重定向到私有标签劳动力的作业队列页面。在页面顶部，通知显示您还不是工作团队的成员。必须在下一步完成此过程以确保作业正确分配。
在Labeling workforces页面上，打开私有团队（对于本文，bda-workforce）。
在Workers选项卡上，选择Add workers to team。
将最近验证的工作人员添加到团队中。

测试解决方案

要测试解决方案，将项目assets文件夹中的测试文档上传到用于传入文档的S3桶。可以通过Step Functions控制台或通过某中心CloudWatch查看日志来监控系统进度。文档处理后，可以在SageMaker AI中看到为用户排队的新作业。要查看此作业，导航回Labeling workforces页面并选择Labeling portal sign-in URL的链接。

使用之前的电子邮件地址和更新后的密码登录。将显示要审核的作业页面。选择作业并选择Start working。

在UI中，可以审核处理文档中低于置信度评分（默认为70%）的每个项目。在此页面上，可以将数据修改为更正后的值。更新后的数据将保存在S3输出桶的a2i-output/bda-review-flow-definition/<日期>/review-loop-<日期时间戳>/output.json文件中。然后可以处理此数据，以提供从文档检索信息的更正值。

清理

要终止此解决方案中创建的所有资源，从项目根目录运行以下命令：cdk destroy

结论

本文演示了Bedrock数据自动化和SageMaker AI的结合如何为单页和多页文档处理提供自动化效率和人工级准确性。鼓励探索此模式以解决自身的文档处理挑战。该解决方案设计为可适应各种文档类型，并可定制以满足特定业务需求。尝试GitHub存储库中提供的完整实现，其中包含入门所需的所有代码和配置。

要了解有关某中心文档智能解决方案的更多信息，请访问Bedrock数据自动化文档和SageMaker AI文档。请在评论中分享经验或联系作者提问。祝建设愉快！