自动化失败根源:数据而非工具

本文深入分析企业自动化项目失败的核心原因——非结构化数据处理难题。探讨传统OCR/ICR方法的局限,LLM在数据提取中的适用边界,以及专用AI模型如何通过智能文档处理实现90%效率提升的真实案例。

自动化失败根源:数据而非工具

为何智能体与RPA需要结构化数据

自动化工具(如机器人流程自动化)擅长处理结构化、可预测的数据——整齐排列在数据库、电子表格或标准化表单中的数据。但面对非结构化输入时表现不佳。典型RPA机器人本质上是基于规则的引擎(“数字工作者”),遵循明确指令。如果输入是扫描文档或自由格式文本字段,机器人无法本能地解读。RPA无法直接管理非结构化数据集;数据必须首先通过额外方法转换为结构化形式。换句话说,RPA机器人需要的是整洁的数据表,而非一堆文档。

“当流程涉及结构化、可预测数据时,RPA最有效。实践中,许多商业文档(如发票)是非结构化或半结构化的,使得自动化处理困难”。非结构化数据现在占企业数据的约80%,这解释了为何许多RPA计划停滞不前。

AI智能体和工作流自动化同样如此:它们的表现完全取决于接收到的数据质量。如果AI客服代理从杂乱日志和未标记文件中提取答案,很可能给出错误响应。任何成功自动化或AI智能体的基础是“AI就绪”数据——干净、组织良好且最好结构化的数据。这就是为什么大量投资工具却忽视数据准备的组织往往看到令人失望的自动化投资回报。

传统数据结构化方法的挑战

如果非结构化数据是问题,为什么不直接将其转换为结构化形式?这说起来容易做起来难。OCR、ICR和ETL等传统数据结构化方法面临重大挑战:

OCR和ICR:长期用于文档数字化,但在实际场景中效果不佳。经典OCR只是模式匹配,难以处理多样字体、布局、表格、图像或签名。即使顶级引擎在半结构化文档上也只能达到80-90%的准确率,每10,000份文档产生1,000-2,000个错误,迫使60%以上的文件需要人工审核。手写体使情况更糟,ICR在草书上的准确率仅65-75%。大多数系统还基于模板,需要为每种新发票或表单格式无尽更新规则。

OCR/ICR可以提取文本,但无法理解上下文或大规模结构,使其对企业自动化不可靠。

传统ETL管道:ETL对结构化数据库效果很好,但处理非结构化数据时失效。无固定模式、高变异性和混乱输入意味着传统ETL工具需要大量自定义脚本来解析自然语言或图像。结果?错误、重复和不一致堆积,迫使数据工程师将80%的时间花在清理和准备数据上——仅剩20%用于实际分析或AI建模。ETL为行和列构建,而非为当今混乱的非结构化数据湖——显著减慢自动化和AI采用。

基于规则的方法:旧自动化解决方案常尝试用暴力规则处理非结构化信息,例如使用正则表达式模式在文本中查找关键术语,或为特定文档布局设置决策规则。这些方法极其脆弱。输入一旦与预期不同,规则即失效。结果,公司最终获得脆弱管道,每当供应商更改发票格式或出现新文本模式时就会中断。这些规则系统的维护成为沉重负担。

所有这些因素导致许多组织仍然依赖大量数据录入人员或人工审核。麦肯锡观察到,当前文档提取工具通常“设置繁琐”且随时间推移无法保持高准确率,迫使公司大量投资于人工异常处理。换句话说,尽管使用OCR或ETL,最终仍需人工介入修复自动化无法处理的问题。这不仅削减效率收益,还打击员工热情(因为员工被困于纠正机器错误或做低价值数据清理)。这是一个令人沮丧的现状:自动化技术存在,但没有干净、结构化数据,其潜力永远无法实现。

基础LLM并非非结构化数据的万能解决方案

随着大语言模型的兴起,人们可能希望它们能简单“读取”所有非结构化数据并神奇输出结构化信息。确实,现代基础模型(如GPT-4)非常擅长理解语言甚至解读图像。然而,通用LLM并非专为解决企业级非结构化数据的规模、准确性和集成问题而构建。原因如下:

规模限制:开箱即用的LLM无法一次性摄取数百万文档或整个数据湖。企业数据通常跨越太字节,远超出LLM在任何给定时间的容量。将数据分块处理有帮助,但模型会失去“大局观”,容易混淆或遗漏细节。LLM处理大量文本速度相对较慢且计算成本高。天真地用它们解析每个文档可能成本高昂且延迟 prone。

缺乏可靠性和结构:LLM概率性生成输出,意味着它们可能“幻觉”信息或用听起来合理但错误的数据填充空白。对于关键字段(如发票总额或日期),需要100%精度,编造值不可接受。基础LLM不保证一致、结构化输出,除非受到严格约束。它们本能地不知道文档哪些部分重要或对应哪些字段标签(除非以非常具体的方式训练或提示)。正如一项研究指出,“完全依赖LLM对许多RPA用例不可行”,因为它们训练成本高、需要大量数据,且无人监督容易错误/幻觉。本质上,健谈的通用AI可能为您总结电子邮件,但信任它每次完美准确提取每个发票行项目是危险的。

未在您的数据上训练:默认情况下,基础模型从互联网规模文本(书籍、网页等)学习,而非从公司专有表单和词汇学习。它们可能不理解表单上的特定行话,或您行业文档的布局约定。在您的数据上微调它们可能但昂贵复杂,即使如此,它们仍然是通才,而非文档处理专家。正如福布斯技术委员会洞察指出,LLM本身“不知道您公司的数据”且缺乏内部记录上下文。您通常需要额外系统(如检索增强生成、知识图等)将LLM锚定在您的实际数据中, effectively adding back a structured layer.

总之,基础模型强大,但它们并非即插即用解决方案,将所有企业非结构化数据解析为整齐的行和列。它们增强但替代不了智能数据管道的需求。高德纳分析师也警告,由于治理和质量问题,许多组织甚至未准备好利用GenAI处理非结构化数据,使用LLM而不修复底层数据是本末倒置。

结构化非结构化数据:为何专用模型是答案

今天,高德纳和其他领先分析师指出一个清晰转变:传统IDP、OCR和ICR解决方案正在过时,被专门为数据提取任务微调的先进大语言模型(LLM)取代。与前辈不同,这些专用LLM擅长解读多样复杂文档的上下文,不受静态模板或有限模式匹配的约束。

微调、专注于数据提取的LLM利用深度学习理解文档上下文、识别结构中的细微变化,并一致输出高质量结构化数据。它们可以分类文档、提取特定字段——如合同号、客户名、政策详情、日期和交易金额——并以高准确率验证提取数据,即使来自手写体、低质量扫描或不熟悉布局。关键的是,这些模型通过处理更多示例持续学习和改进,显著减少持续人工干预需求。

麦肯锡指出,采用这些LLM驱动解决方案的组织相比传统OCR/ICR方法在准确性、可扩展性和运营效率上看到实质改进。通过无缝集成到企业工作流,这些基于LLM的先进提取系统允许RPA机器人、AI智能体和自动化管道在先前无法访问的80%企业非结构化数据上有效运作。

因此,行业领袖强调,企业必须转向将微调、提取优化的LLM作为其数据战略的核心支柱。通过这些先进模型以与结构化数据相同的严谨性处理非结构化数据,解锁显著价值,最终实现真正端到端自动化并释放GenAI技术的全部潜力。

真实世界示例:企业用Nanonets解决非结构化数据挑战

当今领先企业如何解决非结构化数据挑战?许多前瞻性公司已部署AI驱动文档处理平台(如Nanonets)并取得巨大成功。这些示例说明,用正确工具(和数据心态),即使遗留、纸质繁重流程也能变得流线和自主:

某涂料公司(制造业):世界最大涂料公司之一,处理数千供应商发票和采购订单。使用Nanonets自动化发票处理工作流,实现应付账款处理时间减少90%。这转化为财务团队每月释放约192小时手动工作。AI模型从发票提取所有关键字段并与ERP集成,员工不再花时间输入细节或纠正错误。

某烟草公司 - 乌克兰业务:区域团队面临非常长的退税申请流程,涉及在部门和政府门户间穿梭大量文书工作。实施Nanonets后,他们将周转时间从24周降至仅1周,效率提高96%。曾经多月的数据录入和验证折磨变成 largely automated pipeline, dramatically speeding up cash flow from tax refunds.

某纸浆造纸公司:全球纸浆和纸生产商,处理各种国际客户的采购订单。通过将Nanonets集成到订单管理,他们将每采购订单处理时间从约8分钟减少到48秒,每个订单处理时间减少约90%。这是通过自动读取 incoming purchase documents(以不同格式到达)并用所需数据填充系统实现的。结果是更快订单履行和更少手动工作负载。

某金融科技公司:需要管理100,000+供应商的庞大网络,每个提交不同格式的发票。Nanonets允许该公司简化供应商发票管理,据报道节省此前此过程所花时间的99%。曾经 overwhelming, error-prone task is now handled by AI with minimal oversight.

这些案例强调一个共同主题:利用AI驱动数据提取的组织可以超级充电其自动化努力。它们不仅节省时间和劳动力成本,还提高准确性(例如一案例 noted 99% accuracy achieved in data extraction)和可扩展性。员工可以重新部署到更具战略性的工作,而非整天打字或验证数据。技术(工具)不是这里的区别因素,关键是通过专用AI模型理顺数据管道。一旦数据变得可访问和干净,现有自动化工具(工作流、RPA机器人、分析等)终于可以交付 full value.

清洁数据管道:自治企业的基础

在追求“真正自治企业”(流程以最小人工干预运行)的过程中,拥有清洁、结构良好的数据管道绝对关键。“真正自治企业”不仅需要更好工具——还需要更好数据。自动化和AI only as good as the information they consume,当燃料混乱或非结构化时,引擎 sputters。垃圾进,垃圾出是自动化项目交付不足的单一最大原因。

前瞻性领袖现在将数据就绪视为先决条件,而非事后想法。许多企业在AI项目前花2-3个月清理和组织数据,因为跳过此步骤导致糟糕结果。清洁数据管道——原始输入(如文档、传感器馈送和客户查询)被系统收集、清理和转换为单一事实来源——是允许自动化无缝扩展的基础。一旦就位,新用例可以插入现有数据流而无需 reinvent the wheel.

相反,拥有孤岛、不一致数据的组织仍然陷于部分自动化, constantly relying on humans to patch gaps and fix errors. True autonomy requires clean, consistent, and accessible data across the enterprise—much like self-driving cars need proper roads before they can operate at scale.

要点:自动化工具比以往更强大,但数据决定成功。AI和RPA不因缺乏能力而失败;它们因缺乏清洁、结构化数据而失败。解决此问题,通往自治企业——和下一波生产力——的道路即打开。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计