Agent TARS
开源的多模态 AI Agent,能通过自然语言指令“看”懂屏幕、自主规划并直接控制电脑、浏览器、命令行等,实现像人类一样的自动化任务执行
Agent TARS 是字节跳动开源的一款多模态AI Agent(多模态智能体)。它的核心目标是通过自然语言指令,让AI像人类一样“看”屏幕(视觉理解)、“思考”规划,并直接控制电脑、浏览器、命令行等,实现自动化任务执行。Slogan 是“一个开源的多模态AI Agent,提供与各种现实世界工具的无缝集成的能力”。
它基于字节自研的 UI-TARS 视觉语言模型(Vision-Language Model),主打开源桌面/终端使用场景,被很多人称为“开源版的类似Manus/Computer Use的GUI Agent”。
核心功能与特性
-
视觉驱动的GUI操作(核心卖点)
- 通过屏幕截图/视觉理解网页或桌面界面(而非只读DOM)
- 像人一样“看”到按钮、输入框、弹窗、验证码等,进行点击、输入、滚动等操作
- 支持复杂网页任务:深度研究、信息采集、表单填写、预订机票、电商比价等,成功率较高(社区反馈95%+的简单到中级任务)
-
浏览器高级控制
- 自然语言驱动浏览器:打开网页 → 搜索 → 筛选 → 提取数据 → 生成报告
- 支持混合模式:既可以用视觉方式,也支持更稳定的DOM操作(Beta版增强)
-
命令行 & 文件系统集成
- 直接调用终端命令(bash/cmd)
- 文件读写、创建、编辑、搜索、移动
- 示例:让它分析“为什么电脑这么卡”,它会ps、top、查看资源占用等
-
多模态能力(Multimodal)
- 视觉(屏幕/图片理解)
- 语言(自然语言指令)
- 工具调用(Search、Browser、File、Shell、MCP等内置工具)
-
任务规划与执行
- 自主拆解复杂指令 → 制定多步计划 → 逐步执行 → 反思调整
- 支持长期记忆和反思机制(基于UI-TARS的训练方式)
-
使用形式(产品形态)
- CLI(命令行交互) → 最轻量,随时随地用
npx @agent-tars/cli@latest启动 - 桌面应用 → 增强型GUI界面(类似托盘小助手)
- 无头服务器模式 → 可用于服务端自动化
- 支持多种大模型接入(Qwen2-VL、Claude、Gemini等,通过Model Provider机制)
- CLI(命令行交互) → 最轻量,随时随地用
典型使用场景举例
- “帮我在淘宝搜 iPhone 16 Pro Max 1TB 黑色,价格最低的三个店铺,告诉我链接和价格”
- “打开我的论文文件夹,把所有2024年的PDF改名为 ‘年份_题目’ 格式”
- “分析为什么电脑卡:运行诊断命令并告诉我占用最高的程序”
- “去官网给我续费一下 Claude Pro,用公司信用卡”
- “研究某个CLI工具的所有参数并生成中文文档”