Nova Act:Amazon推出的 AI 智能体,可操控网页浏览器模拟人类完成任务

网页级通用AI智能体

Nova Act是Amazon AGI实验室推出的首个网页操作智能体,通过自然语言指令自主完成点击、表单填写、数据提交等浏览器操作。其核心技术突破在于模拟人类操作模式而非API调用,实现真实环境下的任务链自动化执行。

官网链接:https://nova.amazon.com/


核心功能特性

自然语言任务理解

  • 输入”预订下周五纽约飞伦敦的早班航班”→自动完成日期选择/航司筛选/支付表单填写
  • 支持多步骤复合指令(如”比价后购买最便宜的4K显示器”)

浏览器操作引擎

操作类型技术实现精度表现
点击交互基于CV识别可操作元素定位准确率98.7%
表单填写OCR提取字段+语义匹配输入内容复杂表单处理成功率94%
动态交互支持下拉菜单/日期选择器/滑块控件兼容10万+网站组件

任务流控制

  • 技能块拆解:将”预订酒店”分解为”选择城市→设置日期→筛选房型→填写信息”
  • 人机协同:关键步骤设置人工确认点(如支付前二次验证)

技术架构创新

双模型协同架构

  • 语言理解模型
  • 解析任务目标,生成操作步骤树
  • 环境感知模型
  • 实时捕捉网页DOM变化,动态调整操作路径

人类行为模拟

  • 物理操作建模
  • 模拟鼠标移动轨迹(含随机抖动防检测)
  • 差异化输入速度模仿真人打字
  • 反自动化对抗
  • 自动破解验证码/滑块等反机器人机制

评估体系

  • ScreenSpot WebText基准
  • 文本交互得分94%(超越Anthropic/OpenAI竞品)
  • 多步骤任务完成率89%

行业应用场景

企业流程自动化

  • HR管理:自动筛选招聘平台简历→预约面试时段
  • 财务处理:登录银行网站下载流水→生成月度报表

电商运营

  • 比价采购:监控10+电商平台价格波动,自动下单低价商品
  • 库存同步:跨平台更新商品库存与描述

个人效率工具

  • 差旅管理
  • 同步完成机票/酒店/租车预订
  • 自动填写出入境电子表单
  • 研究辅助
  • 学术数据库自动检索→下载文献→整理参考文献

开发者接入指南

  1. 环境配置
  • 安装Nova Act SDK:pip install nova-act
  • 配置Playwright无头浏览器
  1. 任务脚本编写
task: "批量导出Shopify订单"
steps:
  - action: login
    target: "https://admin.shopify.com"
    credentials: ${ENV.SHOPIFY_AUTH}
  - action: navigate
    url: "/admin/orders"
  - action: set_filter
    params: 
      date: "last_30_days"
  - action: export_csv
    confirm: manual  # 人工确认导出
  1. 运行与监控
  • 本地调试:nova run --task task.yaml
  • 云端部署:集成AWS Lambda实现定时触发
  1. 效能优化
  • 录制真实操作生成基础脚本
  • 添加错误重试机制(如元素加载超时)

资源获取

  • 案例库:SDK内置电商/HR/财务等20个模板
  • 文档中心:https://docs.nova.amazon.com

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧