OSWorld是目前AI Agent领域非常重要且真实的多模态计算机使用基准测试平台,被很多人称为“AI Agent的操作系统级基准”。
OSWorld 是第一个可扩展的、真实的计算机环境,专门用来测试和训练多模态AI Agent(视觉+语言模型)在真实操作系统上完成开放式、复杂、跨应用的日常计算机任务。
核心特点(为什么它很强)
- 支持真实操作系统:Ubuntu、Windows、macOS(三巨头全覆盖)
- 真实桌面环境:不是简化的网页或模拟器,而是真正在跑的GIMP、LibreOffice、VS Code、Chrome、文件管理器、终端等
- 开放式任务:369个(目前最新版约361~369个)真实世界任务,全部来自人类真实使用场景
- 跨多个软件的工作流(multi-app workflow),比如:
- 下载图片 → 用GIMP编辑 → 插入PPT → 发邮件
- 配置系统设置 + 安装软件 + 修改文件 + 浏览器操作
- 基于执行的自动评估:每个任务都有专门写的评估脚本(execution-based),结果客观、可重复,而不是靠人工打分
- 支持多模态输入:Agent主要靠看截屏(screenshot)+ 文字指令来理解和操作
谁在用?主要价值在哪?
- 研究人员:测试新一代计算机使用Agent(Computer-use Agent)的天花板
- Agent开发者:用OSWorld训练/验证自己的Agent是不是真的“会用电脑”
- 公司:衡量自家模型距离“成为人类助手”还有多远(Anthropic、OpenAI、xAI、阿里通义等都在刷这个榜)