网页级通用AI智能体
Nova Act是Amazon AGI实验室推出的首个网页操作智能体,通过自然语言指令自主完成点击、表单填写、数据提交等浏览器操作。其核心技术突破在于模拟人类操作模式而非API调用,实现真实环境下的任务链自动化执行。
官网链接:https://nova.amazon.com/
核心功能特性
自然语言任务理解
- 输入”预订下周五纽约飞伦敦的早班航班”→自动完成日期选择/航司筛选/支付表单填写
- 支持多步骤复合指令(如”比价后购买最便宜的4K显示器”)
浏览器操作引擎
操作类型 | 技术实现 | 精度表现 |
---|---|---|
点击交互 | 基于CV识别可操作元素 | 定位准确率98.7% |
表单填写 | OCR提取字段+语义匹配输入内容 | 复杂表单处理成功率94% |
动态交互 | 支持下拉菜单/日期选择器/滑块控件 | 兼容10万+网站组件 |
任务流控制
- 技能块拆解:将”预订酒店”分解为”选择城市→设置日期→筛选房型→填写信息”
- 人机协同:关键步骤设置人工确认点(如支付前二次验证)
技术架构创新
双模型协同架构
- 语言理解模型:
- 解析任务目标,生成操作步骤树
- 环境感知模型:
- 实时捕捉网页DOM变化,动态调整操作路径
人类行为模拟
- 物理操作建模:
- 模拟鼠标移动轨迹(含随机抖动防检测)
- 差异化输入速度模仿真人打字
- 反自动化对抗:
- 自动破解验证码/滑块等反机器人机制
评估体系
- ScreenSpot WebText基准:
- 文本交互得分94%(超越Anthropic/OpenAI竞品)
- 多步骤任务完成率89%
行业应用场景
企业流程自动化
- HR管理:自动筛选招聘平台简历→预约面试时段
- 财务处理:登录银行网站下载流水→生成月度报表
电商运营
- 比价采购:监控10+电商平台价格波动,自动下单低价商品
- 库存同步:跨平台更新商品库存与描述
个人效率工具
- 差旅管理:
- 同步完成机票/酒店/租车预订
- 自动填写出入境电子表单
- 研究辅助:
- 学术数据库自动检索→下载文献→整理参考文献
开发者接入指南
- 环境配置
- 安装Nova Act SDK:
pip install nova-act
- 配置Playwright无头浏览器
- 任务脚本编写
task: "批量导出Shopify订单"
steps:
- action: login
target: "https://admin.shopify.com"
credentials: ${ENV.SHOPIFY_AUTH}
- action: navigate
url: "/admin/orders"
- action: set_filter
params:
date: "last_30_days"
- action: export_csv
confirm: manual # 人工确认导出
- 运行与监控
- 本地调试:
nova run --task task.yaml
- 云端部署:集成AWS Lambda实现定时触发
- 效能优化
- 录制真实操作生成基础脚本
- 添加错误重试机制(如元素加载超时)
资源获取:
- 案例库:SDK内置电商/HR/财务等20个模板
- 文档中心:https://docs.nova.amazon.com