当前位置：首页 > AI资讯 > 正文内容

具身智能新突破：让AI从“看懂”到“做对”

admin4天前AI资讯98

从“看懂”到“做对”：具身智能的决策跃迁

长久以来，人工智能在视觉理解领域取得了显著进展，从识别物体到解析场景，模型已经能够“看懂”世界。然而，真正的挑战在于如何让 AI 不仅理解环境，还能在此基础上做出合理决策——这正是具身智能（Embodied AI）的核心目标。近日，北京大学与星源智团队联合推出的 EQA-Decision 数据集与 RoboDecision 训练框架，为这一难题提供了突破性解决方案，首次将具身问答从静态感知拓展至动态决策，实现了“先想后做”的智能跃迁。

四大推理维度：构建完整的具身认知链条

传统具身问答数据集往往存在“偏科”问题：有的专注于空间关系识别，有的侧重任务流程描述，却鲜有能同时覆盖场景理解、空间推理、任务动态推理和实时决策的系统性数据。EQA-Decision 的出现填补了这一空白。该数据集包含超过 400 万对多模态问答样本，来源涵盖模拟环境、图像、第一人称视频及真实机器人轨迹，确保数据的多样性与现实贴近性。

更重要的是，数据被划分为四个递进式推理模块：

静态场景构建：识别物体是否存在、状态如何、数量多少及位置分布；
空间理解：从深度方向、定位指代、行动可行性三个角度解析空间关系；
任务动态推理：引入时间维度，支持子任务规划、状态跟踪与进度估计；
即时决策：聚焦机器人在动态环境中的实时动作选择。

其中，任务动态推理与即时决策是此前研究几乎未触及的领域。这意味着模型不再只是回答“这是什么”，而是学会思考“接下来该做什么”。

三阶段训练：让模型学会“先想后做”

仅有高质量数据并不足以训练出强决策能力。为此，团队提出 RoboDecision 框架，以 Qwen3-VL-8B 为基座，设计了三阶段渐进式训练流程，逐步引导模型从“感知”走向“决策”。

第一阶段：监督微调（SFT）
通过在四大模块上均匀采样数据，并使用 LoRA 技术微调语言与融合层，模型初步掌握具身任务的基本知识结构。

第二阶段：思维链监督微调（CoT-SFT）
团队从数据集中抽取约 10% 的样本，利用 Gemini-2.5-Pro 生成包含完整推理路径的思维链标注。这一过程迫使模型显式地展示“如何从观察推导出答案”，从而建立多步逻辑推理能力。

第三阶段：强化学习微调（GRPO）
这是最具创新性的环节。团队设计了一个混合奖励函数，包含三项关键指标：
- 推理奖励：衡量生成推理链与参考答案的语义一致性；
- 答案奖励：对自由文本采用语义相似度，对结构化输出（如坐标）采用规则匹配；
- 视觉一致性奖励：利用 OpenCLIP 确保推理过程与图像内容对齐，防止模型依赖文本先验“脑补”答案。

这套机制有效抑制了“幻觉式推理”，使模型真正基于视觉输入做出判断，实现“看图决策”。

性能碾压：RoboDecision-8B 全面领先

在包含 2118 条样本的 EQA-Decision Benchmark 上，RoboDecision-8B 取得了 68.06 分的综合成绩，远超 Qwen3-VL-8B-Instruct 的 48.84 分，甚至接近 RoboBrain-7B-2.0 的两倍。更令人瞩目的是，在指代定位任务中，RoboDecision 得分高达 68.12，而 Qwen3-VL-8B-Thinking 仅为 23.14——差距源于视觉一致性奖励强制模型锚定像素信息，而非依赖语言模式猜测。

在最具挑战性的即时决策任务中，RoboDecision 以 69.93 分超越 GPT-5 的 62.25 分，证明其在动态环境下的决策能力已具备国际领先水平。此外，在 RoboVQA、ERQA、Where2Place 等外部基准测试中，该模型同样表现优异，展现出强大的泛化能力。

结语：迈向“感知-决策”一体化的新范式

EQA-Decision 与 RoboDecision 的提出，标志着具身智能研究正从“静态体检”迈向“动态实战”。通过系统整合四大推理维度，并引入融合视觉一致性的强化学习机制，这项工作不仅提供了一个高质量的大规模数据集，更构建了一套可复用的训练范式。

未来，随着更多类似框架的出现，“从感知到决策”的一体化训练很可能成为具身智能研究的标配。当 AI 不仅能看懂世界，还能在复杂环境中自主规划、实时响应时，我们距离真正意义上的智能体又近了一步。

标签： 具身智能 EQA-Decision RoboDecision 多模态推理 强化学习微调

标签: 具身智能动态决策 AI推理多模态数据机器人

返回列表

上一篇：AI风控一体机：国产金融科技自主可控新突破

下一篇：大模型刷爆考试，为何离真正智能更远？

玖捌肆贰

具身智能新突破：让AI从“看懂”到“做对”

从“看懂”到“做对”：具身智能的决策跃迁

四大推理维度：构建完整的具身认知链条

三阶段训练：让模型学会“先想后做”

性能碾压：RoboDecision-8B 全面领先

结语：迈向“感知-决策”一体化的新范式

相关文章

Claude Opus 4.7：AI从聊天走向自主做事

一行代码破解AI巨头算力税黑箱

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

曦望S3专芯重塑AI推理算力格局

智能体时代的安全挑战与破局之道

多模态AI全面开放，算力竞争白热化

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

具身智能新突破：让AI从“看懂”到“做对”

从“看懂”到“做对”：具身智能的决策跃迁

四大推理维度：构建完整的具身认知链条

三阶段训练：让模型学会“先想后做”

性能碾压：RoboDecision-8B 全面领先

结语：迈向“感知-决策”一体化的新范式

相关文章

Claude Opus 4.7：AI从聊天走向自主做事

一行代码破解AI巨头算力税黑箱

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

曦望S3专芯重塑AI推理算力格局

智能体时代的安全挑战与破局之道

多模态AI全面开放，算力竞争白热化

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论