Agent TARS
字节开源多模态 Agent Stack,让 AI 通过视觉理解和工具调用操作电脑、浏览器和真实应用。
标签:AI AgentAgent TARS AI Agent Browser Agent ByteDance Computer Use GUI Agent MCP UI-TARS Desktop 多模态智能体 字节跳动 桌面自动化 视觉语言模型Agent TARS 是字节开源的多模态 AI Agent Stack,官方 GitHub 介绍它包含 Agent TARS 与 UI-TARS Desktop 两部分:Agent TARS 面向终端、电脑、浏览器和产品中的多模态 Agent 工作流,UI-TARS Desktop 则是基于 UI-TARS 模型的本地 GUI Agent 桌面应用。
Agent TARS 的核心特色
Agent TARS 的第一类特色是多模态 GUI 能力。它结合视觉语言模型和 GUI Agent,让 AI 不只读文本,也能理解截图、页面和应用界面。
第二类特色是浏览器与电脑操作。官方示例包括订机票、订酒店、查看 GitHub issue、生成图表等,覆盖真实网页和工具任务。
第三类特色是 MCP 集成。Agent TARS 内核基于 MCP,可以挂载 MCP Server 来连接真实世界工具。
第四类特色是 UI-TARS Desktop。它支持本地或远程电脑、浏览器操作,具备截图识别、精准鼠标键盘控制、实时状态反馈和本地处理能力。
适合哪些场景
Agent TARS 适合 GUI 自动化、网页任务执行、浏览器自动化、跨应用操作、Agent 产品研发、电脑操作模型评测和多模态 Agent 实验。
和其他 Agent 的区别
和 OpenClaw 系个人助手相比,Agent TARS 更偏底层多模态 Agent Stack;和纯浏览器 Agent 相比,它同时覆盖桌面 GUI、浏览器、终端和 MCP 工具。
使用注意
GUI Agent 具备真实点击和键盘操作能力,测试时应先使用隔离环境或测试账号,并对支付、删除、提交、发布等高风险动作设置人工确认。
常见问题
Agent TARS 是什么?
Agent TARS 是字节开源的多模态 AI Agent Stack。
UI-TARS Desktop 是什么?
UI-TARS Desktop 是基于 UI-TARS 模型的本地 GUI Agent 桌面应用。
Agent TARS 适合普通用户吗?
它更适合开发者、研究者和需要构建 GUI Agent 的团队。





