Gemini Robotics

Google DeepMind推出的机器人AI模型，能够将视觉信息和指令转换为运动命令，让机器人感知、推理、使用工具并与人类互动。

AI模型自动化机器人视觉语言动作具身推理智能制造

访问网站

Gemini Robotics

一句话定位

Google DeepMind推出的机器人AI模型，为物理代理时代提供动力，改变机器人主动理解环境的方式。

核心价值

将视觉-语言-动作（VLA）模型与具身推理（ER）模型结合，形成强大的机器人系统
能够处理复杂多步骤任务，自主制定行动计划并执行
适应各种机器人形态，从双臂静态平台到人形机器人

功能亮点

通用性：理解物理世界，适应新情况，将目标分解为可管理步骤
代理能力：评估复杂挑战，调用工具（如Google搜索），制定详细计划
思考能力：让机器人在行动前思考，提高行动质量，决策过程更透明
交互性：理解日常命令，在行动中解释方法，用户可随时重定向
灵巧性：处理需要精细运动技能的任务，如折纸、打包午餐盒等
多形态适应：适应各种机器人形式，单一模型可用于多种机器人

适用人群

机器人开发者和研究人员
AI和机器人技术爱好者
工业自动化和智能制造企业
学术研究机构和实验室

使用场景

复杂工业任务的自动化执行
服务机器人的人机交互和任务完成
机器人学习和适应新环境的能力开发
多步骤物理任务的规划和执行
机器人精细操作和灵巧性训练

综合说明

Gemini Robotics是Google DeepMind推出的先进机器人AI系统，采用双模型架构，结合视觉-语言-动作模型和具身推理模型，为机器人提供强大的感知、推理和行动能力。该系统能够处理复杂多步骤任务，适应各种机器人形态，并通过安全框架确保负责任的发展。适合机器人开发者和研究人员用于推动机器人技术的创新应用。