首页/Page Agent — 阿里开源浏览器内 AI Agent,自然语言控制网页

Page Agent — 阿里开源浏览器内 AI Agent,自然语言控制网页

0 次浏览
2026/3/11

用说话的方式操控网页

Page Agent 是阿里巴巴开源的 JavaScript 库,让 AI Agent 直接在浏览器页面内用自然语言控制界面。和 Playwright/Puppeteer 这类需要外部进程的方案不同,Page Agent 是纯前端方案——一段 JS 注入页面就能工作,不需要浏览器扩展、Python 环境或无头浏览器。

核心特点

  • 文本 DOM 操控 — 不靠截图/OCR,直接理解 DOM 结构来操作元素
  • 自带 LLM — 支持接入任意大模型(推荐阿里灵积 API)
  • 人机协作 — 内置可视化反馈和审批 UI,关键操作可人工确认
  • 跨标签页 — 配合 Chrome 扩展可跨多个页面协调任务

使用场景

  • SaaS 产品内嵌 AI Copilot(比如 CRM 里一句话填完表单)
  • 复杂表单自动化(多步点击变成一句话指令)
  • 无障碍辅助(语音/自然语言操控界面)
  • 多窗口工作流编排

快速上手

CDN 引入即可体验免费 demo LLM,生产环境通过 NPM 安装并配置 LLM Provider。TypeScript 实现,MIT 许可。

4.4k Stars,轻量级浏览器自动化的新思路。

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...