Agent TARS

开源的多模态 AI Agent,能通过自然语言指令“看”懂屏幕、自主规划并直接控制电脑、浏览器、命令行等,实现像人类一样的自动化任务执行

Agent TARS 是字节跳动开源的一款多模态AI Agent(多模态智能体)。它的核心目标是通过自然语言指令,让AI像人类一样“看”屏幕(视觉理解)、“思考”规划,并直接控制电脑、浏览器、命令行等,实现自动化任务执行。Slogan 是“一个开源的多模态AI Agent,提供与各种现实世界工具的无缝集成的能力”。

它基于字节自研的 UI-TARS 视觉语言模型(Vision-Language Model),主打开源桌面/终端使用场景,被很多人称为“开源版的类似Manus/Computer Use的GUI Agent”。

核心功能与特性

  1. 视觉驱动的GUI操作(核心卖点)

    • 通过屏幕截图/视觉理解网页或桌面界面(而非只读DOM)
    • 像人一样“看”到按钮、输入框、弹窗、验证码等,进行点击、输入、滚动等操作
    • 支持复杂网页任务:深度研究、信息采集、表单填写、预订机票、电商比价等,成功率较高(社区反馈95%+的简单到中级任务)
  2. 浏览器高级控制

    • 自然语言驱动浏览器:打开网页 → 搜索 → 筛选 → 提取数据 → 生成报告
    • 支持混合模式:既可以用视觉方式,也支持更稳定的DOM操作(Beta版增强)
  3. 命令行 & 文件系统集成

    • 直接调用终端命令(bash/cmd)
    • 文件读写、创建、编辑、搜索、移动
    • 示例:让它分析“为什么电脑这么卡”,它会ps、top、查看资源占用等
  4. 多模态能力(Multimodal)

    • 视觉(屏幕/图片理解)
    • 语言(自然语言指令)
    • 工具调用(Search、Browser、File、Shell、MCP等内置工具)
  5. 任务规划与执行

    • 自主拆解复杂指令 → 制定多步计划 → 逐步执行 → 反思调整
    • 支持长期记忆和反思机制(基于UI-TARS的训练方式)
  6. 使用形式(产品形态)

    • CLI(命令行交互) → 最轻量,随时随地用 npx @agent-tars/cli@latest 启动
    • 桌面应用 → 增强型GUI界面(类似托盘小助手)
    • 无头服务器模式 → 可用于服务端自动化
    • 支持多种大模型接入(Qwen2-VL、Claude、Gemini等,通过Model Provider机制)

典型使用场景举例

  • “帮我在淘宝搜 iPhone 16 Pro Max 1TB 黑色,价格最低的三个店铺,告诉我链接和价格”
  • “打开我的论文文件夹,把所有2024年的PDF改名为 ‘年份_题目’ 格式”
  • “分析为什么电脑卡:运行诊断命令并告诉我占用最高的程序”
  • “去官网给我续费一下 Claude Pro,用公司信用卡”
  • “研究某个CLI工具的所有参数并生成中文文档”