构建能够探索上下文数据并采取行动的AI智能体
人工智能正在快速演进,曾经令人惊叹的ChatGPT对话能力如今已司空见惯。AI开发者正在加速前进,如今的焦点全部集中在智能体上。他们正在构建更先进的AI系统,将大型语言模型转变为思考者、决策者和行动执行者,能够自动化多种工作。
要创建AI智能体,开发者必须为LLM分配特定角色,设定明确目标,并提供必要资源供智能体完成任务。当AI智能体专注于明确定义的目标,并能像人类一样使用API、网络浏览器、搜索引擎和数据库时,它们就能自主决定如何执行分配的任务。
智能体AI为开发者带来了全新的范式,使多个智能体能够协作处理复杂的多步骤任务,重新定义业务自动化的本质。
发展历程
AI智能体最重要的能力之一是理解上下文。LLM可以被教导记住对话中或先前会话的内容,并在决策时考虑这些信息,而无需修改其底层代码。这种上下文学习使LLM能够更有效地适应和响应复杂查询。
检索增强生成(RAG)进一步增强了AI智能体,这是一种流行技术,使LLM能够用初始训练集之外的动态数据扩展知识。这使得可以为特定上下文定制LLM的响应,例如为特定组织提供客户服务支持。
最近的发展是多模态模型(MLLM),使AI智能体能够探索和导航图形用户界面。MLLM结合了LLM的能力(在自然语言处理任务上表现良好但在处理视觉元素时存在困难)和大型视觉模型(LVM)的能力(擅长处理视觉但不具备传统LLM的高级推理技能)。
通过将LVM的视觉处理与LLM的推理相结合,MLLM可以分析和理解文本和图像。
网络导航
任何AI智能体的关键技能是探索、理解和在线采取行动的能力,这意味着开发者需要教会它如何使用浏览器浏览网络。
浏览器使用
Browser Use是最受欢迎的工具之一,这是一个开源框架,帮助使互联网对AI智能体"可读"。Browser Use通过将每个网站分解为结构化文本来扩展智能体的视觉识别能力。
一旦完成,AI智能体就能以更确定性的方式处理在线内容,包括基于计算机视觉的智能体可能错过的动态嵌入式网页元素。这意味着它可以理解特定网页上的所有可用选项并识别需要执行的操作。
抓取浏览器
AI智能体还需要专门的浏览器,使其能够大规模浏览网络,避开网络发布者设置的各种陷阱,这些陷阱旨在阻止自动化机器人导航和导入数据。通过Bright Data的Scraping Browser,AI智能体可以获得各种工具,帮助以前所未有的规模完成这项工作。
凭借无限并发会话,数千个智能体可以持续探索网络,这得益于提供精细控制的API和脚本管理集成。
它还提供了一系列机制来绕过Amazon和Facebook等网站实施的阻止自动化流量的工具。这些包括浏览器指纹识别、自动重试、高级验证码解决器以及超过1.5亿个代理IP地址库。
顺序任务执行
现在我们的AI智能体已经准备好探索网络,开发者的下一步是教会它们按逻辑顺序执行任务,以便承担涉及多个步骤的复杂工作。当AI智能体需要从多个来源收集上下文并进行跨域推理时,它们常常会遇到困难。
一些例子包括自适应调查,需要智能体实时执行情感分析并提出后续问题。同样,供应商风险评估、客户流失分析和预测制造运营瓶颈等任务涉及从多个领域提取数据。
智能体团队
为了解决这个问题,开发者必须设计一种统一输入数据并集成的方法,使AI智能体能够全面理解它们所依赖的信息。最简单的方法是使用专门训练的AI智能体团队,每个团队都训练用于理解或处理特定领域或任务。
通过使用Crew AI的开源智能体AI框架,开发者可以快速组建一个AI智能体团队,协作执行多步骤任务。这些智能体团队会将任务分配给彼此,每个智能体专注于其能力范围内的方面,将其他任务留给更适合的智能体。
一旦工作完成,它们会合并结果。
标准化交互
这些AI智能体团队可能需要访问各种不同的软件工具来完成分配的任务,这就是模型上下文协议(MCP)发挥作用的地方。开源MCP正迅速成为AI智能体与软件、API和服务交互的事实标准,因为它标准化了上下文共享和操作执行,使这些智能体能够在动态的多工具环境中运行。
MCP为AI智能体提供对几乎任何API、数据源或工具的结构化访问,在应用程序内实现自然灵活的工作流程,同时减少集成所需的定制逻辑。正如API改变了软件通信方式一样,MCP有望成为智能体-工具交互的通用语言,支持跨域链接工具以实现更强大的复合操作。
跨域上下文
我们还需要一个语义层来链接结构化数据集中的信息与从互联网获取的实时非结构化数据。Wren AI提供了一个强大的语义层,帮助开发者标准化跨域数据(通常以不兼容的格式存储),以便AI智能体能够一致地合并和解释这些数据。
关键的是,它提供了智能体处理结构化企业数据所需的业务上下文,因此可以标记并与基于网络的数据对齐,创建全面的知识图谱。通过使用知识图谱以这种方式映射不同的跨域实体,AI智能体可以更准确地识别基于上下文的实体间关系。
凭借这种执行顺序任务的能力,开发者将能够创建AI智能体,通过将外部基于网络的数据与内部指标进行上下文关联,生成更相关的跨域洞察。例如,AI智能体可能能够将有关供应短缺的外部新闻故事与组织内部采购系统的风险评分更新联系起来,考虑公司现有库存、短缺预期持续时间以及从不同供应商采购替代品的能力。
前所未有的自动化规模
AI智能体代表了LLM的显著演进,LLM已经从基于预训练数据提供简单的接地响应转变为可以主动探索环境、与环境交互并完成分配任务的智能实体。
当开发者将数据和网络探索与逻辑推理和决策制定相结合时,AI智能体能够以更大的自主性和准确性执行更复杂的多步骤任务。这将迎来一个由LLM实现更强大和灵活任务自动化的新时代,具有近乎人类水平的理解和问题解决能力。
AI智能体在能力方面正变得越来越"人性化",我们才刚刚开始意识到这将为企业加速释放的可能性。