用AI代理实现数据访问民主化
Snowflake产品总监Jeff Hollan与Ryan共同探讨了数据在提升AI和AI代理能力中的关键作用。他们讨论了数据库如何演进为AI平台、Snowflake的新数据市场,以及数据在AI代理中将扮演的角色。
Snowflake提供了一个完全托管的数据平台,开发者可以在其上构建AI应用。
AI数据平台的核心价值
Jeff Hollan分享了他的个人经历:虽然公共LLM在日常任务中很有用,但在工作场景中,当他询问关于Snowflake客户使用情况、最新客户或使用量下降的客户等问题时,这些通用模型无法提供有意义的答案。
Snowflake致力于让企业能够与AI进行丰富对话,同时融入缺失的关键部分——独特的业务背景,即每个组织数据中的"秘方"。
平台架构与技术组件
向量化查询与RAG
- Snowflake提供Cortex搜索服务,实现快速向量化查找
- 支持检索增强生成(RAG)模式,在适当时机提供相关数据片段
- 相比两年前需要周末时间搭建开源向量数据库,现在只需30秒即可完成数据向量化
可查询数据访问
- 大多数代理AI解决方案仅专注于RAG
- Snowflake构建了生成正确SQL查询的组件,能够查询实时数据(如最近三天的收入)
治理层
- 实施角色访问控制,确保代理不会泄露不应访问的数据
- 提供数据强制执行机制
查询性能与架构创新
Snowflake的核心创新是存储与计算分离的云原生架构:
- 传统数据库需要同时扩展存储和计算
- Snowflake利用AWS S3和EC2等独立资源,提供极大的扩展灵活性
- 可以根据查询需求灵活配置计算资源
数据市场与生态系统
Snowflake数据市场让用户能够轻松添加外部数据源:
- Stack Overflow数据现已通过Snowflake市场提供
- 任何用户都可以访问所有帖子、评论和Wiki数据
- 这种合作模式既让数据消费者受益,也保护了数据提供者社区
AI代理的工作流程与信任构建
准确性提升策略:
- 尽可能基于真实数据生成答案
- 提供答案来源和置信度指标
- 在代理模式中,99%的情况下代理首先会查找可用数据,而不是直接生成答案
企业级考虑:
- 收购TruEra等公司,专注于代理质量和可观测性
- 支持MCP(模型上下文协议)和代理到代理协议
- 当扩展到数千名员工时,准确性、信任度和合规性变得至关重要
未来发展方向
自主代理:
- 当前代理主要是交互式的,未来将更多在后台自主运行
- 需要解决组织上下文理解的问题
组织语义理解:
- 代理需要理解组织运作方式和独特流程
- 在数据世界中称为"语义视图"
- 这是实现更高级自主性的关键挑战
实践建议
Jeff Hollan建议开发者亲自尝试AI技术:
- 从个人生活到工作场景的各种应用
- 了解技术的优势和局限性
- 通过实际使用发现AI的适用场景
AI技术将在未来十年显著改变工作方式,虽然它不是完美的魔法技术,但确实能够带来真正的生产力提升。