首页/Page Agent — 阿里开源网页 GUI 自动化,自然语言控制浏览器(6.4k ⭐)

Page Agent — 阿里开源网页 GUI 自动化,自然语言控制浏览器(6.4k ⭐)

0 次浏览
2026/3/13

Page Agent 是什么?

Page Agent 是阿里巴巴开源的网页 GUI 自动化智能体,今日 GitHub 新增 1200+ 星。它通过纯 JavaScript 在浏览器页面内运行,让你用自然语言描述操作意图,Agent 自动识别界面元素并执行点击、输入、滚动等交互动作。

核心能力

  • 无需额外驱动:纯页面内 JS 运行,无需 Selenium、Playwright 等外部驱动
  • 自然语言指令:直接说"填写登录表单并提交",Agent 自动理解并执行
  • 跨框架兼容:适用于 React、Vue、Angular 等任意前端框架构建的页面
  • 视觉+语义双识别:结合 DOM 结构和视觉截图双重定位,准确率更高

典型用例

  • 电商平台自动下单/比价
  • 企业 OA 系统批量操作自动化
  • Web 应用功能测试
  • 数据采集与表单批量填写

与 Playwright/Puppeteer 的区别

传统自动化工具需要提前编写选择器脚本,Page Agent 则理解自然语言意图,适合处理动态变化的 UI,大幅降低维护成本。

项目地址:https://github.com/alibaba/page-agent

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...