AI承诺背后的隐藏危机:为何数据质量沦为事后考量
最新消息
发布日期:2025年7月31日
作者:Yuri Gubin
企业在未建立必要数据基础的情况下匆忙采用AI技术,现在发现即使最复杂的算法也无法克服根本性信息缺陷,其后果远超糟糕的性能指标。
问题具有战略性。企业正在从未为机器学习设计的数据基础上构建AI应用,创建出放大现有偏见并大规模产生不可靠结果的系统。影响在产品和应用中变得明显,低质量数据直接损害AI性能和可靠性。
本不应需要这场讨论。数据质量对成功实施AI至关重要,本应是先决条件而非事后考量。然而各行业组织只有在部署未能达到预期结果的AI系统后才发现这一事实。
从渐进发展到即时访问
历史上,组织通过自然进程发展AI能力。他们建立强大的数据基础,进入高级分析,最终进阶到机器学习。这种有机增长确保数据质量实践与技术复杂度同步发展。
生成式AI革命打破了这一顺序。突然之间,强大的AI工具对任何拥有API密钥的人可用,无论其数据成熟度如何。组织可以立即开始构建AI应用,无需先前充当自然质量过滤器的基础设施。
过去公司基于非常强大的数据基础发展AI能力。但过去18-24个月的变化是AI变得高度可访问。每个人都跳入AI采用,没有传统上先于高级分析项目的准备工作。
这种可访问性造成了简单的错觉。虽然AI模型比先前技术更容易处理自然语言和非结构化数据,但它们本质上仍依赖数据质量以获得可靠输出。
垃圾进垃圾出的现实
经典编程原则“垃圾进垃圾出”在可能影响现实世界决策的AI系统中获得新的紧迫性。低质量数据可能延续有害偏见并导致歧视性结果,引发监管审查。
考虑一个医学研究示例:多年来溃疡被归因于压力,因为数据集中的每个患者都经历压力。机器学习模型会自信地将压力识别为原因,即使细菌感染才是真正元凶。数据反映相关性而非因果关系,但AI系统没有适当上下文无法区分两者。
这代表了数据质量需要关注的实际证据。如果数据集仅包含相关信息而非因果关系,机器学习模型将产生自信但不正确的结论,可能影响关键决策。
数据理解中的人类元素
解决AI数据质量问题需要更多而非更少的人类参与。组织需要包含主题专家的数据管理框架,这些专家不仅理解技术数据结构,还理解业务背景和影响。
这些数据管理员可以识别纯技术分析可能忽略的微妙但关键的区分。在教育技术中,例如将家长、教师和学生合并为单个“用户”类别进行分析将产生无意义的见解。具有领域专业知识的人知道这些群体发挥根本不同的作用,应分开分析。
擅长模型和数据集分析的人可能不是理解数据对业务意义的最佳人选。这就是为什么数据管理需要技术和领域专业知识。
随着AI系统做出影响真实人群的决策——从招聘和贷款到医疗保健和刑事司法应用——这种人类监督变得特别关键。
监管压力驱动变革
对更好数据质量的推动主要不是来自内部质量倡议。相反,监管压力正迫使组织更仔细地检查其AI数据实践。
在美国,各州正在采用管理AI在决策中使用的法规,特别是招聘、许可和福利分配。这些法律要求组织记录收集的数据,获得适当同意,并维护可解释AI驱动决策的可审计流程。
没有人想自动化歧视。某些数据参数不能用于决策,否则将被视为歧视且难以辩护模型。对可解释AI的监管关注创造了额外的数据质量要求。
组织不仅必须确保数据准确完整,还要以能够清晰解释决策方式的结构化数据。
训练数据中的微妙偏见
数据偏见超越明显的人口特征,延伸到可能揭示AI系统训练起源的微妙语言和文化模式。例如,“delve”一词在AI生成文本中出现比例过高,因为它在某些地区的训练数据中比典型美国或英国商业写作更常见。
由于强化学习,特定词被引入并在特定模型产生的文本中统计上出现频率高得多。用户实际上会在输出中看到这种偏见反映。
这些语言指纹展示了训练数据特征如何不可避免地出现在AI输出中。即使关于数据源的看似中性的技术选择也可能引入系统性偏见,影响用户体验和模型有效性。
质量优于数量策略
尽管行业对新AI模型发布感到兴奋,但更 disciplined 的方法专注于明确定义的使用案例而非最大数据暴露被证明更有效。
与其选择与AI共享更多数据,坚持基础并思考产品概念产生更好结果。你不想只是把很多好东西扔进罐子并假设会发生好事。
这种哲学与更多数据自动改善AI性能的常见假设相反。实践中,精心策划的高质量数据集通常比大规模未过滤集合产生更好结果。
可操作AI未来
展望未来,“可操作AI”系统将可靠执行复杂任务而无幻觉或错误。这些系统将处理多步流程,如在陌生影院预订电影票,弄清界面并自主完成交易。
想象要求你的AI助手为你订票,尽管该AI引擎从未与该提供商合作过,它会弄清楚如何做。你将收到收件箱中的确认邮件而无需任何手动干预。
实现这种可靠性水平需要解决当前数据质量挑战,同时构建数据授权和安全的新基础设施。每个数据字段需要自动注释和分类,AI模型固有尊重,而非需要手动编排。
内置数据安全
未来AI系统将需要“数据授权”能力,自动理解和尊重访问控制和隐私要求。这超越了当前需要为每个AI应用手动配置数据权限的方法。
模型应尊重数据授权。打破数据孤岛不应通过意外泄漏数据创造新的更复杂问题。这代表了将数据安全视为外部约束到使其成为AI系统本身固有特征的根本转变。
战略影响
AI中的数据质量危机反映了技术采用中更广泛的挑战:技术上可能与企业准备好之间的差距。现在解决数据管理、偏见检测和质量控制的公司将在AI能力持续进步时拥有显著优势。
成功的组织将是那些抵抗尽可能快部署AI的诱惑,转而投资于使AI可靠和可信的基础工作。这不仅包括技术基础设施,还包括治理框架、人类专业知识和文化变革,优先考虑数据质量而非上市速度。
随着监管要求收紧和AI系统承担更多 consequential 决策,跳过数据质量基础的公司将面临日益增加的风险。那些建立强大基础的组织将处于利用进步AI能力的位置,同时保持可持续增长所需的信任和合规性。
前进道路需要承认AI承诺只有在坚实数据基础上才能实现。组织必须将数据质量视为战略要务而非技术事后考量。理解这种区分的公司将与那些仍在努力使AI可靠大规模工作的基本挑战的公司区分开来。
dtSearch® - 即时搜索文件、电子邮件、数据库、网络数据中的万亿字节。包含dtSearch自有文档过滤器。超过25种并发搜索选项。跨平台API C++、Java和当前.NET for Win/Linux/macOS。本地或云端。访问dtSearch查看数百案例研究和评论以及完整评估
文章标签
数据偏见, 数据实践, 数据质量
关于Yuri Gubin
Yuri Gubin是DataArt的首席信息官。