谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力
从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景
当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的一次质变。Google DeepMind最新发布的Gemini Robotics-ER 1.6,正是这场变革的核心引擎。作为主打空间推理的第三代模型,ER 1.6不仅让机器人“看见”世界,更让它们真正“看懂”世界。
看懂仪表:从拍照到理解
在过去,Spot能走到设备前拍下照片,但无法解读仪表盘上的数字。如今,ER 1.6通过三步实现精准读数:放大细节、定位指针与刻度、结合世界知识进行语义解释。例如,它能识别压力表上的微小刻度,计算出指针所指的精确值,并判断这是否超出安全阈值。
这一能力的关键突破在于成功率的大幅提升——从ER 1.5的23%跃升至93%。这背后是Agentic Vision技术的加持,使模型不仅能“看”,还能主动“思考”如何看。波士顿动力副总裁Marco da Silva指出,这种能力让Spot具备了在复杂工业环境中自主监控的潜力,真正实现“观察—理解—响应”的闭环。
Pointing:空间推理的基石
仪表识别的突破,依赖于ER系列长期打磨的核心能力——Pointing。简单来说,Pointing是让模型用“点”来精确表达其对空间中物体位置、数量和状态的认知。
在测试中,ER 1.5面对一张工具图时,错误地多算了一把锤子,漏掉了剪刀,甚至“虚构”出一辆手推车。而ER 1.6不仅能准确识别2把锤子、1把剪刀、6把钳子,还能拒绝指认图中不存在的事物。这种“不幻觉”的能力,是机器人可靠性的关键。
Pointing不仅是计数工具,更是机器人规划动作的基础。例如,当机械臂需要抓取某个物体时,ER 1.6能通过Pointing判断最佳抓取点,避免碰撞或滑脱。这种细粒度的空间理解,让机器人在真实世界中的操作更加稳健。
成功检测:知道何时“停下”
自主性的另一面,是知道何时停止。ER 1.6引入了多视角成功检测机制,能综合机器人头部、手腕等多个摄像头的画面,判断任务是否真正完成。
以“将蓝色笔放入黑色笔筒”为例,传统系统可能在笔尖刚接触笔筒时就判定成功。而ER 1.6会分析笔是否完全进入、是否倾斜、是否被遮挡,从而做出更可靠的判断。这种能力在工业质检、装配等场景中至关重要——错误的中止可能导致产品缺陷或设备损坏。
更值得称道的是,ER 1.6在安全性上的进步。它能通过空间推理判断是否涉及液体处理、是否搬运超重物体,并主动拒绝执行高风险指令。在对抗性测试中,其对安全规则的遵循度显著优于前代模型,成为谷歌迄今最安全的机器人“大脑”。
从“卖狗”到“回归”:谷歌的机器人战略转身
有趣的是,Spot与谷歌的关系颇具戏剧性。2013年谷歌收购波士顿动力,2017年因“缺乏商业闭环”将其出售。九年后,随着前CTO Aaron Saunders加入DeepMind,双方在现代汽车发布会上宣布合作,目标是将Gemini Robotics部署到Atlas人形机器人上。
哈萨比斯曾言,谷歌不做硬件,要成为“机器人领域的Android”。ER 1.6的发布,正是这一战略的落地——提供通用的高层推理能力,让不同厂商的机器人都能“聪明起来”。这种“大脑+身体”的分工模式,或将加速机器人技术的规模化应用。
从工厂巡检到危险环境作业,从物流分拣到家庭服务,ER 1.6所代表的空间推理能力,正在为机器人打开通往真实世界的大门。当机器不仅能执行指令,还能理解环境、判断状态、自主决策时,我们距离“具身智能”的真正落地,又近了一步。
标签: 人工智能 机器人 空间推理 谷歌DeepMind 具身智能