浏览器自动化Agent生产路径解析

本文详细介绍某中心Nova Act SDK如何通过AI代理实现浏览器自动化,包括技术架构、企业级安全集成、实际应用案例以及90%可靠性的工作流执行方案,帮助团队快速从原型过渡到生产环境。

某中心Nova Act SDK(预览版):浏览器自动化代理的生产就绪之路

2025年初,某中心推出Nova Act SDK研究预览版,帮助开发者构建可在浏览器中可靠完成任务的代理。目前正通过有限预览与客户合作,利用新的云服务集成(包括身份访问管理实现安全凭证管理、简单存储服务实现数据存储和策略控制,以及新增的Bedrock AgentCore浏览器工具实现可扩展的云基浏览器执行)将代理推向生产环境。

传统自动化工作流的挑战

日常业务操作(如提交休假申请、处理发票、访问供应商门户或查看仪表板)常需浏览器操作。缺乏API覆盖往往导致工作流需手动完成:团队跨标签页复制粘贴数据、遵循多步骤流程、点击无数界面才能完成工作。

传统基于规则的浏览器自动化框架在动态网络环境中面临挑战。由于页面结构变化(例如新增表单字段或下拉选项)会导致脆弱选择器失效,团队在持续维护上花费的时间可能超过构建新自动化功能。最重要的是,这些框架难以扩展。如果一个用例需要在50个不同网站上执行(例如州政府网站的专业执照验证),团队必须构建50个站点特定的自动化方案,因为基于规则的框架不具备泛化能力。

采用某中心Nova Act SDK的代理式AI

通过Nova Act SDK,可构建和部署由Nova Act模型驱动的可靠浏览器代理——该模型专为代理式AI构建并微调。通过强化学习和大量域内浏览器交互数据训练,它能精确执行逐步工作流。最新版本通过云服务集成扩展了这些能力,使代理能从原型过渡到生产环境。

开发者可通过单一命令安装SDK,使用Python和自然语言编写代理,实时调试,并直接集成到持续集成/交付(CI/CD)管道中。通过云服务提供的企业级安全性、可观察性和基础设施,Nova Act SDK为构建可大规模执行任务的代理提供了快速灵活路径。

该SDK还集成了新的Bedrock AgentCore浏览器工具——一个快速、安全的云基浏览器,使AI代理能大规模与网站交互。该工具包含企业级安全功能(包括虚拟机级隔离和联合身份集成),并通过实时查看、云审计日志记录和会话重放提供内置可观察性。

Nova Act SDK的核心优势

可靠性:构建高精度可重复的浏览器自动化

开发者可将复杂工作流分解为可靠的原子命令(例如收集网页所有表单元素并返回包含表单必填字段的字符串)。支持添加详细指令优化命令(例如关闭弹出横幅),具备API调用能力,并可交替使用Playwright进行直接浏览器操作以提高可靠性(例如输入密码)。开发者可插入Python代码(如测试、断点、断言或用于并行化的线程池)以优化性能。

最新版本在早期企业工作流(包括自动化质量保证、复杂表单处理和流程执行)中已展现超过90%的可靠性。推理和恢复能力的改进帮助代理适应变化的UI,持续准确地完成复杂序列。

上市速度:数日内从原型到生产

SDK设计旨在快速构建自动化而无需依赖脆弱脚本。可通过单一命令安装,使用Python、自然语言或两者结合定义代理,在运行流程时调试、检查DOM、步骤间暂停并快速迭代。支持以下功能:

  • 基于Git的CI/CD管道
  • 可复用代理模块
  • 敏感任务Playwright回退(例如密码输入)
  • 线程和并行化实现快速执行

无需更改基础设施或重建内部工具,基于Nova Act构建的代理可融入现有开发工作流。

安全性:部署可信自动化方案

集成身份访问管理实现访问控制,模型访问管理方式与其他云服务一致。支持在macOS、Linux、Windows和WSL2上执行。运行时环境隔离,支持敏感输入输出加密。SDK专为企业环境设计,具备生产系统所需的可靠性、可观察性和安全性。

实际应用案例

自动化数据录入与表单填写

在医疗保健领域,工作人员协助会员完成复杂的州特定福利申请。公共部门社工也需在多个系统中重新录入家庭数据。Nova Act SDK可靠处理这些动态流程,在变化的字段、下拉框和弹窗中导航而无需脆弱脚本或定制代码。

某领先混合AI解决方案提供商正与健康科技公司合作,使用Nova Act SDK自动为会员注册公共福利。“许多公共项目注册表格冗长复杂,导致会员常无法获得所需帮助,”健康科技公司CEO表示。“通过Nova Act SDK利用系统已有信息,我们不仅简化文书工作,更帮助及时准确地获取支持健康生活的资源。预计此举将使福利注册成功率提高30%,整体案件处理量提升十倍,让医疗提供者更专注于患者护理而非行政工作。”

客户支持增强

零售、旅游和SaaS行业的客户支持团队常在内部工具与第三方门户间切换以解决工单。Nova Act SDK自动化这些浏览器任务,帮助代理专注于客户交流的同时可靠快速执行后端步骤。

某领先差旅费用管理平台使用该SDK简化旅行代理工作流,自动化跨多个供应商的支付表单填写。“将Nova Act SDK加入代理工作流帮助我们减少重复任务——这是扩展运营以服务更多客户的关键步骤,”产品高级副总裁表示。“我们尝试过其他计算机使用工具,而Nova Act的可靠性和灵活性使单一脚本能跨不同酒店品牌的多样支付表单工作。现正扩展该自动化覆盖更多供应商,预计将提升运营能力并更高效满足增长需求。”

高风险行政工作流自动化

凭证验证、身份检查等合规密集型任务常涉及导航数百个布局不一致的第三方门户。Nova Act SDK能以高精度、灵活性和完全控制自动化这些工作流。

某全球代理流程自动化领导者正通过Nova Act SDK扩展自动化能力,从专业凭证验证入手——“这是关乎合规、成员安全和日常运营的高风险重复任务。”首席产品官表示:“通过将Nova Act SDK深度集成到流程推理引擎中,我们实现了企业自动化计算机使用的重大飞跃。目标导向的AI代理不仅模拟点击,更实时推理基于UI的流程,以类人专业能力导航复杂网站。这为自动化先前难以实现的用例(如医疗保健项目注册测试)打开了大门。”

动态界面的UX与QA测试

在银行、保险和政府等领域,UX和QA测试常需在频繁变化的网站上模拟真实用户交互。使用Nova Act SDK,团队可用自然语言或Python编写和更新测试,快速适应UI变化而无需脆弱选择器或手动重写。

某公共部门集成软件和技术服务领先提供商使用该SDK自动化软件测试并提高发布可靠性。“Nova Act的自然语言界面让我们在数分钟内将手动测试计划转为自动化套件——无需编写代码,节省数百小时的同时扩展测试覆盖并提升产品质量,”数据与洞察总裁表示。“现正计划在产品组合中扩展Nova Act SDK的应用。”

未来发展方向

正与早期云服务客户紧密合作以制定路线图。虽然当前聚焦浏览器工作流,但Nova Act SDK是构建能在多样环境中可靠运行代理的更广泛努力的一部分。持续扩展模型 beyond web范围,将强化学习应用于更复杂的现实任务,并深化云生态系统集成以帮助开发者更快从原型开发过渡到部署安全可扩展的代理系统。

快速开始

技术负责人或开发者可通过访问Nova Act页面开始研究预览版的原型开发。将获得专为可靠逐步浏览器自动化设计的早期工具——为真实工作流构建,而非仅演示用途。

某中心AGI实验室是专注于构建能在数字和物理环境中执行实际动作的有用AI代理的应用研究团队。其工作涵盖大语言模型、强化学习、世界建模等领域。可通过访问其网站了解最新创新。

可联系表达在生产环境中使用代理的兴趣(有限预览)。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计