当前位置:首页 > AI资讯 > 正文内容

具身智能新突破:让AI从“看懂”到“做对”

admin4天前AI资讯98

从“看懂”到“做对”:具身智能的决策跃迁

长久以来,人工智能在视觉理解领域取得了显著进展,从识别物体到解析场景,模型已经能够“看懂”世界。然而,真正的挑战在于如何让 AI 不仅理解环境,还能在此基础上做出合理决策——这正是具身智能(Embodied AI)的核心目标。近日,北京大学与星源智团队联合推出的 EQA-Decision 数据集与 RoboDecision 训练框架,为这一难题提供了突破性解决方案,首次将具身问答从静态感知拓展至动态决策,实现了“先想后做”的智能跃迁。

四大推理维度:构建完整的具身认知链条

传统具身问答数据集往往存在“偏科”问题:有的专注于空间关系识别,有的侧重任务流程描述,却鲜有能同时覆盖场景理解、空间推理、任务动态推理和实时决策的系统性数据。EQA-Decision 的出现填补了这一空白。该数据集包含超过 400 万对多模态问答样本,来源涵盖模拟环境、图像、第一人称视频及真实机器人轨迹,确保数据的多样性与现实贴近性。

更重要的是,数据被划分为四个递进式推理模块:

  • 静态场景构建:识别物体是否存在、状态如何、数量多少及位置分布;
  • 空间理解:从深度方向、定位指代、行动可行性三个角度解析空间关系;
  • 任务动态推理:引入时间维度,支持子任务规划、状态跟踪与进度估计;
  • 即时决策:聚焦机器人在动态环境中的实时动作选择。

其中,任务动态推理与即时决策是此前研究几乎未触及的领域。这意味着模型不再只是回答“这是什么”,而是学会思考“接下来该做什么”。

三阶段训练:让模型学会“先想后做”

仅有高质量数据并不足以训练出强决策能力。为此,团队提出 RoboDecision 框架,以 Qwen3-VL-8B 为基座,设计了三阶段渐进式训练流程,逐步引导模型从“感知”走向“决策”。

第一阶段:监督微调(SFT)
通过在四大模块上均匀采样数据,并使用 LoRA 技术微调语言与融合层,模型初步掌握具身任务的基本知识结构。

第二阶段:思维链监督微调(CoT-SFT)
团队从数据集中抽取约 10% 的样本,利用 Gemini-2.5-Pro 生成包含完整推理路径的思维链标注。这一过程迫使模型显式地展示“如何从观察推导出答案”,从而建立多步逻辑推理能力。

第三阶段:强化学习微调(GRPO)
这是最具创新性的环节。团队设计了一个混合奖励函数,包含三项关键指标:
- 推理奖励:衡量生成推理链与参考答案的语义一致性;
- 答案奖励:对自由文本采用语义相似度,对结构化输出(如坐标)采用规则匹配;
- 视觉一致性奖励:利用 OpenCLIP 确保推理过程与图像内容对齐,防止模型依赖文本先验“脑补”答案。

这套机制有效抑制了“幻觉式推理”,使模型真正基于视觉输入做出判断,实现“看图决策”。

性能碾压:RoboDecision-8B 全面领先

在包含 2118 条样本的 EQA-Decision Benchmark 上,RoboDecision-8B 取得了 68.06 分的综合成绩,远超 Qwen3-VL-8B-Instruct 的 48.84 分,甚至接近 RoboBrain-7B-2.0 的两倍。更令人瞩目的是,在指代定位任务中,RoboDecision 得分高达 68.12,而 Qwen3-VL-8B-Thinking 仅为 23.14——差距源于视觉一致性奖励强制模型锚定像素信息,而非依赖语言模式猜测。

在最具挑战性的即时决策任务中,RoboDecision 以 69.93 分超越 GPT-5 的 62.25 分,证明其在动态环境下的决策能力已具备国际领先水平。此外,在 RoboVQA、ERQA、Where2Place 等外部基准测试中,该模型同样表现优异,展现出强大的泛化能力。

结语:迈向“感知-决策”一体化的新范式

EQA-Decision 与 RoboDecision 的提出,标志着具身智能研究正从“静态体检”迈向“动态实战”。通过系统整合四大推理维度,并引入融合视觉一致性的强化学习机制,这项工作不仅提供了一个高质量的大规模数据集,更构建了一套可复用的训练范式。

未来,随着更多类似框架的出现,“从感知到决策”的一体化训练很可能成为具身智能研究的标配。当 AI 不仅能看懂世界,还能在复杂环境中自主规划、实时响应时,我们距离真正意义上的智能体又近了一步。

标签: 具身智能 EQA-Decision RoboDecision 多模态推理 强化学习微调

相关文章

Claude Opus 4.7:AI从聊天走向自主做事

从“会聊天”到“能做事”:Claude Opus 4.7 的范式跃迁 人工智能的竞争正在悄然转向。过去,我们衡量大模型优劣的标准往往是“对话是否流畅”“回答是否自然”,而如今,真正的分水岭已落在“它能...

一行代码破解AI巨头算力税黑箱

一行代码,撕开AI巨头的“算力税”黑箱 2025年9月,GitHub上悄然出现的一行命令 npx claude-mem install,像一颗投入深潭的石子,起初无人察觉。然而短短数月后,它竟掀起一场...

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

千问再进化:Qwen3.6-Max-Preview 如何重塑国产大模型格局 4月20日,阿里云正式发布新一代旗舰级大模型 Qwen3.6-Max-Preview 的早期预览版本。这一消息迅速在AI圈引...

曦望S3专芯重塑AI推理算力格局

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施 2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理...

智能体时代的安全挑战与破局之道

智能体时代的安全挑战与破局之道 人工智能的发展正迎来关键转折点。从“能对话”的大模型,到“能执行”的智能体,技术的演进不仅改变了人机交互的边界,更深刻影响着产业形态与组织逻辑。在4月19日召开的中国互...

多模态AI全面开放,算力竞争白热化

多模态AI普及加速,算力与生态竞争进入深水区 4月22日,全球AI领域迎来密集的技术与战略动态。从OpenAI全面开放多模态图像生成能力,到Meta、英伟达、英特尔等巨头在算力、图形AI与端侧智能上的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。