当前位置:首页 > AI资讯 > 正文内容

机器人迎来GPT-3时刻:π0.7实现自主思考

admin2个月前 (04-18)AI资讯98

机器人终于迎来了它的“GPT-3时刻”

当人们还在争论具身智能是否真的能走向通用时,Physical Intelligence(PI)用一款名为 π0.7 的VLA(视觉-语言-动作)模型,给出了一个近乎确定的答案:机器人,正在学会“自己思考”。

这不是又一个能完成固定动作的机械臂,也不是依赖海量微调数据的“任务专家”。π0.7 的真正突破在于:它第一次在机器人领域实现了 组合泛化(Compositional Generalization)——就像人类面对新挑战时,能灵活调用已有技能,组合出全新解法。

这,正是当年 GPT-3 引爆大模型时代的“涌现时刻”,如今在具身智能领域重现。

从“教什么做什么”到“自己想怎么做”

过去,机器人学习高度依赖“保姆式训练”:每个动作都要标注、每条轨迹都要清洗、每个任务都要微调。模型像一台精密的复读机,只能在训练过的范围内执行指令。一旦遇到新场景、新工具、新目标,立刻失灵。

但 π0.7 打破了这一范式。它不再被动接受指令,而是开始主动“理解”任务结构。

其核心创新在于:用多样化的 prompt 喂多样化的数据

传统 VLA 模型通常只接收一句“清理冰箱”作为输入,信息单一,模型无法判断数据质量、执行策略或上下文意图。而 π0.7 将 prompt 扩展为四层结构:

  • 任务指令(如“清理厨房”)
  • 子任务指令(如“打开冰箱”)
  • 子目标图像(下一秒画面应呈现什么)
  • episode 元数据(数据质量评分、是否出错、执行速度等)

这相当于给每一段训练数据贴上了“说明书”和“质量标签”。模型因此能分辨哪些是高效操作,哪些是失败尝试,哪些来自人类第一视角视频,哪些来自其他机器人。

于是,失败的数据不再是噪音,而是宝贵的学习信号。低质量演示、跨机器人片段、人类 egocentric 视频……全都能被有效利用。

这正是 π0.7 能实现“通才追平专才”的关键:它不再需要为每个任务单独微调,开箱即用,性能却超越专门训练的“专家模型”。

涌现的四个维度:当机器人开始“举一反三”

π0.7 的涌现能力体现在四个层面,每一个都指向通用智能的曙光。

1. 开箱即用的灵巧性
无需专项训练,π0.7 就能完成做咖啡、叠衣服、削西葫芦、换垃圾袋等复杂操作。这些任务涉及精细动作控制、多步骤规划与环境交互,过去需要数月调参才能实现。

2. 指令泛化
在从未见过的厨房和卧室中,它能理解“拿起那个最大盘子里的水果”或“拿我用来喝汤的那个东西”这类含空间与语义指代的复杂指令。这已接近人类的语言理解水平。

3. 跨本体泛化
最令人惊讶的是,训练数据中完全没有 UR5e 机械臂叠衣服的记录,但 π0.7 不仅完成了任务,完成度达 85.6%,接近人类专家的 90.9%。更关键的是,它自主调整了抓取策略——在源机器人上采用倾斜夹爪,在 UR5e 上改用垂直抓取,以适配其更长臂的运动学特性。

4. 组合任务泛化
面对“用空气炸锅烤红薯”这类训练数据中完全不存在的任务,π0.7 能组合“打开设备”“放入食材”“设置时间”“取出成品”等原子技能,自主生成完整流程。

正如 PI 联合创始人 Chelsea Finn 所言:“一个通才,打败了多个专才。”

通向通用具身智能的新范式

π0.7 的意义,远不止于几个惊艳的 demo。它标志着机器人学习范式的根本转变:

  • 从“任务微调”到“能力涌现”:不再依赖 endless fine-tuning,而是通过丰富上下文让模型自发形成通用策略。
  • 从“数据孤岛”到“数据融合”:失败、低质、跨域数据不再是负担,而是训练通用性的燃料。
  • 从“机械执行”到“策略迁移”:机器人开始理解“为什么这么做”,而不仅是“怎么做”。

这让人想起 2020 年 GPT-3 的发布——当时人们惊叹于“模型突然会写诗、编程、讲笑话”,而真正改变世界的,是它证明了“规模+多样性+上下文”能催生通用能力。

如今,π0.7 在具身智能领域复刻了这一路径。它或许就是机器人的 GPT-3 时刻。

当机器人不再只是“执行者”,而是开始“思考者”,我们离真正通用的具身智能,或许只差一个 π1.0。

标签: 具身智能 VLA模型 组合泛化 π0.7 机器人GPT-3时刻

相关文章

Cloudflare Agent Cloud开启企业AI自动化新纪元

企业智能新引擎:Cloudflare Agent Cloud 融合 OpenAI 开启自动化新纪元在人工智能从“辅助工具”迈向“自主代理”的关键转折点上,企业正面临一场深刻的效率革命。如何让AI不再局...

企业级AI Agent管理时代来临

从“单兵作战”到“军团指挥”:企业级AI Agent管理时代来临生成式人工智能的浪潮正以前所未有的速度重塑企业运营方式。从内容生成到流程自动化,AI Agent(智能体)已从实验室走向真实业务场景。然...

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景 当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的...

AI编程助手竟成黑客入口

当AI开始“听话”:一场由PR标题引发的安全风暴 在AI编程助手逐渐渗透开发流程的今天,我们正面临一个令人不安的现实:最危险的攻击,可能不是来自代码本身,而是来自一条看似无害的Pull Request...

Cursor 3重塑开发范式:智能体成代码主力

从“写代码”到“管智能体”:Cursor 3 如何重塑开发范式 当开发者还在适应 AI 辅助编程的“副驾驶”模式时,Anysphere 已经将 Cursor 推向了一个更激进的阶段——智能体优先。最新...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。