Agent TARS

开源的多模态 AI Agent，能通过自然语言指令“看”懂屏幕、自主规划并直接控制电脑、浏览器、命令行等，实现像人类一样的自动化任务执行

Agent TARS 是字节跳动开源的一款多模态AI Agent（多模态智能体）。它的核心目标是通过自然语言指令，让AI像人类一样“看”屏幕（视觉理解）、“思考”规划，并直接控制电脑、浏览器、命令行等，实现自动化任务执行。Slogan 是“一个开源的多模态AI Agent，提供与各种现实世界工具的无缝集成的能力”。

它基于字节自研的 UI-TARS 视觉语言模型（Vision-Language Model），主打开源桌面/终端使用场景，被很多人称为“开源版的类似Manus/Computer Use的GUI Agent”。

核心功能与特性

视觉驱动的GUI操作（核心卖点）
- 通过屏幕截图/视觉理解网页或桌面界面（而非只读DOM）
- 像人一样“看”到按钮、输入框、弹窗、验证码等，进行点击、输入、滚动等操作
- 支持复杂网页任务：深度研究、信息采集、表单填写、预订机票、电商比价等，成功率较高（社区反馈95%+的简单到中级任务）
浏览器高级控制
- 自然语言驱动浏览器：打开网页 → 搜索 → 筛选 → 提取数据 → 生成报告
- 支持混合模式：既可以用视觉方式，也支持更稳定的DOM操作（Beta版增强）
命令行 & 文件系统集成
- 直接调用终端命令（bash/cmd）
- 文件读写、创建、编辑、搜索、移动
- 示例：让它分析“为什么电脑这么卡”，它会ps、top、查看资源占用等
多模态能力（Multimodal）
- 视觉（屏幕/图片理解）
- 语言（自然语言指令）
- 工具调用（Search、Browser、File、Shell、MCP等内置工具）
任务规划与执行
- 自主拆解复杂指令 → 制定多步计划 → 逐步执行 → 反思调整
- 支持长期记忆和反思机制（基于UI-TARS的训练方式）
使用形式（产品形态）
- CLI（命令行交互） → 最轻量，随时随地用 npx @agent-tars/cli@latest 启动
- 桌面应用 → 增强型GUI界面（类似托盘小助手）
- 无头服务器模式 → 可用于服务端自动化
- 支持多种大模型接入（Qwen2-VL、Claude、Gemini等，通过Model Provider机制）

典型使用场景举例

“帮我在淘宝搜 iPhone 16 Pro Max 1TB 黑色，价格最低的三个店铺，告诉我链接和价格”
“打开我的论文文件夹，把所有2024年的PDF改名为 ‘年份_题目’ 格式”
“分析为什么电脑卡：运行诊断命令并告诉我占用最高的程序”
“去官网给我续费一下 Claude Pro，用公司信用卡”
“研究某个CLI工具的所有参数并生成中文文档”