当前位置:首页 > AI资讯 > 正文内容

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

admin2个月前 (04-17)AI资讯137

从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景

当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的一次质变。Google DeepMind最新发布的Gemini Robotics-ER 1.6,正是这场变革的核心引擎。作为主打空间推理的第三代模型,ER 1.6不仅让机器人“看见”世界,更让它们真正“看懂”世界。

看懂仪表:从拍照到理解

在过去,Spot能走到设备前拍下照片,但无法解读仪表盘上的数字。如今,ER 1.6通过三步实现精准读数:放大细节、定位指针与刻度、结合世界知识进行语义解释。例如,它能识别压力表上的微小刻度,计算出指针所指的精确值,并判断这是否超出安全阈值。

这一能力的关键突破在于成功率的大幅提升——从ER 1.5的23%跃升至93%。这背后是Agentic Vision技术的加持,使模型不仅能“看”,还能主动“思考”如何看。波士顿动力副总裁Marco da Silva指出,这种能力让Spot具备了在复杂工业环境中自主监控的潜力,真正实现“观察—理解—响应”的闭环。

Pointing:空间推理的基石

仪表识别的突破,依赖于ER系列长期打磨的核心能力——Pointing。简单来说,Pointing是让模型用“点”来精确表达其对空间中物体位置、数量和状态的认知。

在测试中,ER 1.5面对一张工具图时,错误地多算了一把锤子,漏掉了剪刀,甚至“虚构”出一辆手推车。而ER 1.6不仅能准确识别2把锤子、1把剪刀、6把钳子,还能拒绝指认图中不存在的事物。这种“不幻觉”的能力,是机器人可靠性的关键。

Pointing不仅是计数工具,更是机器人规划动作的基础。例如,当机械臂需要抓取某个物体时,ER 1.6能通过Pointing判断最佳抓取点,避免碰撞或滑脱。这种细粒度的空间理解,让机器人在真实世界中的操作更加稳健。

成功检测:知道何时“停下”

自主性的另一面,是知道何时停止。ER 1.6引入了多视角成功检测机制,能综合机器人头部、手腕等多个摄像头的画面,判断任务是否真正完成。

以“将蓝色笔放入黑色笔筒”为例,传统系统可能在笔尖刚接触笔筒时就判定成功。而ER 1.6会分析笔是否完全进入、是否倾斜、是否被遮挡,从而做出更可靠的判断。这种能力在工业质检、装配等场景中至关重要——错误的中止可能导致产品缺陷或设备损坏。

更值得称道的是,ER 1.6在安全性上的进步。它能通过空间推理判断是否涉及液体处理、是否搬运超重物体,并主动拒绝执行高风险指令。在对抗性测试中,其对安全规则的遵循度显著优于前代模型,成为谷歌迄今最安全的机器人“大脑”。

从“卖狗”到“回归”:谷歌的机器人战略转身

有趣的是,Spot与谷歌的关系颇具戏剧性。2013年谷歌收购波士顿动力,2017年因“缺乏商业闭环”将其出售。九年后,随着前CTO Aaron Saunders加入DeepMind,双方在现代汽车发布会上宣布合作,目标是将Gemini Robotics部署到Atlas人形机器人上。

哈萨比斯曾言,谷歌不做硬件,要成为“机器人领域的Android”。ER 1.6的发布,正是这一战略的落地——提供通用的高层推理能力,让不同厂商的机器人都能“聪明起来”。这种“大脑+身体”的分工模式,或将加速机器人技术的规模化应用。

从工厂巡检到危险环境作业,从物流分拣到家庭服务,ER 1.6所代表的空间推理能力,正在为机器人打开通往真实世界的大门。当机器不仅能执行指令,还能理解环境、判断状态、自主决策时,我们距离“具身智能”的真正落地,又近了一步。

标签: 人工智能 机器人 空间推理 谷歌DeepMind 具身智能

相关文章

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI 迈入“造世界”时代:腾讯混元世界模型 2.0 开启 3D 创作新纪元 当 AI 还在“画图”“对话”“生成视频”的赛道上激烈竞争时,腾讯已经悄然将战场推向了更宏大的维度——创造完整、可交互的 3...

无人车与机器人重塑物流闭环

从“最后1公里”到“最后10米”:无人车与机器人如何重塑物流闭环 4月16日,一则看似低调却意味深长的合作官宣,悄然拉开了智能物流新阶段的序幕。自动驾驶企业佑驾创新(2431.HK)与全球知名智能终端...

荣耀MagicBook开箱即用AI养虾本

从“养虾难”到“开箱即用”:荣耀如何重塑AI PC的用户体验 当“养虾”成为2026年科技圈最热的黑话之一,普通用户却仍在门槛前徘徊。尽管OpenClaw生态已热闹了两个月,但真正能“一键养虾”的设备...

亚马逊云科技推出Agent注册表破解多云治理难题

当AI Agent泛滥成灾:亚马逊云科技用“注册表”破局多云治理难题 在AI驱动的数字化转型浪潮中,企业正以前所未有的速度构建和部署AI Agent。从客服助手到财务分析工具,从代码生成到跨系统自动化...

Cursor 3重塑开发范式:智能体成代码主力

从“写代码”到“管智能体”:Cursor 3 如何重塑开发范式 当开发者还在适应 AI 辅助编程的“副驾驶”模式时,Anysphere 已经将 Cursor 推向了一个更激进的阶段——智能体优先。最新...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。