云数据代理终结企业数据团队80%繁琐工作

某云服务商推出系列AI数据代理,通过自然语言处理自动创建复杂数据管道,将数据工程工作自动化,解决企业数据团队80%时间耗费在数据清洗和管道维护上的痛点,提升数据工作流效率。

瞄准数据准备瓶颈

企业分析和AI所需的数据不会自动出现在正确位置,必须通过数据管道进行准备和引导。这属于数据工程领域,长期以来一直是企业需要处理的最繁琐任务之一。

某云服务商今日推出一系列AI代理,直接针对数据准备的繁琐性。新代理涵盖整个数据生命周期:BigQuery中的数据工程代理通过自然语言命令自动创建复杂管道;数据科学代理将笔记本转换为可自主执行机器学习工作流的智能工作区;增强的对话分析代理现包含为业务用户处理高级Python分析的代码解释器。

该机构数据云董事总经理表示:“如今从事数据工程的不仅是工程师,数据分析师、数据科学家等所有数据角色都抱怨查找数据、处理数据和获取高质量数据的困难。用户工作流中80%时间都耗费在数据清洗、数据工程和获取可用高质量数据等繁琐工作上。”

数据工程代理的工作原理

该代理通过自然语言提示在BigQuery中创建复杂数据管道。用户可描述多步骤工作流,代理负责技术实现,包括从云存储摄取数据、应用转换和执行质量检查。

代理自动编写复杂SQL和Python脚本,处理异常检测、调度管道和故障排除。这些任务传统上需要大量工程专业知识和持续维护。

代理将自然语言请求分解为多个步骤:首先理解需要创建数据源连接,随后创建适当表结构、加载数据、识别连接主键、推理数据质量问题并应用清洗功能。

“通常整个工作流需要数据工程师编写大量复杂代码,构建复杂管道并持续管理和迭代代码。现在通过数据工程代理,可以用自然语言创建新管道、修改现有管道并排查问题。”

企业数据团队协作模式

数据工程师通常是实践能力强的群体。常用数据管道构建工具(包括数据流、编排、质量和转换工具)不会因新代理而消失。

“工程师仍然了解这些底层工具,因为从数据人员操作方式看,他们确实喜爱代理,并将其视为专家合作伙伴。但工程师通常希望查看代码,可视化查看代理创建的管道。”

因此虽然数据工程代理可自主工作,但工程师可查看代理操作。数据专业人员通常会查看代理编写的代码,然后向代理提出额外建议以进一步调整或自定义数据管道。

基于API构建代理生态系统

数据领域多家厂商正在构建代理AI工作流。包括Altimate AI等初创公司正在构建特定数据工作流代理,某数据平台机构、某云数据机构和某机构等大型厂商也都在开发各自的代理AI技术。

该云服务商的方法有所不同,其通过Gemini数据代理API构建数据AI服务。这种方法使开发人员能够将自然语言处理和代码解释功能嵌入自有应用程序,代表从封闭式第一方工具向可扩展平台方法的转变。

“所有这些代理背后实际上都是作为一组API构建的。我们计划逐步向合作伙伴提供这些API服务。”

umbrella API服务将发布基础API服务和代理API。该机构设有灯塔预览计划,合作伙伴将这些API嵌入自有接口,包括笔记本提供商和构建数据管道工具的ISV合作伙伴。

对企业数据团队的意义

对希望领先AI驱动数据操作的企业,此公告标志着向自主数据工作流的加速。这些功能可在洞察时间和资源效率方面提供显著竞争优势。组织应评估当前数据团队能力,并考虑开展管道自动化试点计划。

对计划后期采用AI的企业,这些功能与现有云服务的集成改变了竞争格局。高级数据代理的基础设施成为标准而非增值服务,这种转变可能提高行业对数据平台能力的基线期望。

组织必须在效率提升与监督控制需求之间取得平衡。该机构的透明化方法可能提供中间立场,但数据领导者应在广泛部署前制定自主代理操作治理框架。

对API可用性的重视表明,自定义代理开发将成为竞争差异化因素。企业应考虑如何利用这些基础服务构建领域特定代理,以解决独特业务流程和数据挑战。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计