bytedance/UI-TARS-desktop — 字节跳动开源多模态 AI Agent 桌面端，连接前沿模型与 Agent 基础设施（31.5k ⭐）

bytedance/UI-TARS-desktop — 字节跳动多模态 AI Agent 桌面平台

GitHub: https://github.com/bytedance/UI-TARS-desktop Stars: 31,495 ⭐（今日 +552 🔥）作者: ByteDance（字节跳动）语言: TypeScript / Python

项目简介

UI-TARS-desktop 是字节跳动开源的多模态 AI Agent 全栈平台，定位为"开源多模态 AI Agent 技术栈"，将前沿 AI 模型与完整的 Agent 基础设施整合到桌面端应用中，实现真正的 GUI 操作自动化。

核心架构

┌─────────────────────────────────────┐
│          UI-TARS Desktop App         │
├─────────────────────────────────────┤
│  Agent 编排层（计划、执行、反馈）      │
├──────────────┬──────────────────────┤
│  视觉感知模块  │    动作执行模块        │
│ (屏幕理解)    │  (鼠标/键盘控制)       │
├──────────────┴──────────────────────┤
│       多模态模型接口层                │
│  (支持 GPT-4V、Claude、Gemini等)     │
└─────────────────────────────────────┘

核心能力

视觉 Agent：直接"看"屏幕，理解 UI 元素，无需 DOM/API 接入
跨应用操作：可操控任意桌面应用，不限于有 API 的软件
多模型支持：对接 GPT-4V、Claude Vision、Gemini 等主流多模态模型
任务规划：将自然语言指令拆解为可执行的 GUI 操作序列
自我纠错：执行失败时自动重试并调整策略

典型使用场景

RPA 替代：用 AI Agent 替代传统规则式 RPA 脚本
测试自动化：AI 驱动的 UI 测试，无需维护 selector
个人效率：自动化重复性桌面操作（填表、数据录入等）
无障碍辅助：帮助行动不便的用户操控电脑

ByteDance 的 Agent 布局

UI-TARS-desktop 是字节跳动在 Agent 生态的重要布局，继 Deer Flow（工作流 Agent）之后，再次将开源 Agent 基础设施作为技术影响力的核心杠杆。31k star 显示其在 AI 社区的强大号召力。