AI代理如何重塑数字工作流程
主动式AI代理的技术实现
在Yutori公司,我们正在构建主动式AI代理。与传统的反应式代理不同,主动式代理能够在用户指定关注内容后持续监控网络。从技术角度看,这可以理解为“封装在定时任务中的智能搜索”。
多模态LLM与浏览器自动化
我们使用多模态大语言模型(LLM),因为网站是为人类消费设计的,代理必须像人类一样“看到”网页。当API接口可用时(例如通过模型上下文协议MCP),代理会直接通过API获取信息。但对于长尾网站,我们开发了内部浏览器使用代理,这些代理通过截图感知网页,点击按钮并操作表单。
长期运行的强化学习代理
我们的Scouts产品展示了长期强化学习的能力。有些代理已经连续运行了10周,跟踪特定主题的叙事演变。这种持久运行的实体与典型的短寿命编码代理形成鲜明对比,后者通常只存活几次交互。
技术挑战与优化策略
- 智能频率调整:根据查询类型智能决定检查频率
- 沙盒环境:为写操作创建安全练习环境
- 错误成本控制:从只读产品开始,逐步扩展到写操作
未来技术方向
我们正在重新构想人类与数字世界的交互界面,需要两个关键技术组件:智能系统和生成式用户界面。未来的界面将根据用户查询动态生成,整合来自多个网站和来源的信息。
经济模型与技术整合
随着AI代理流量的增长,需要重新思考价值交换机制。当代理代表具有高度意图的人类访问网站时,可能产生新的经济激励,如代理付费访问或网站付费吸引相关意图的代理。