当前位置:首页 > AI资讯 > 正文内容

多模态大模型SFT竟成RL绊脚石

admin2周前 (05-17)AI资讯43

多模态大模型的“隐形伤”:SFT之后,RL真的在进步吗?

在人工智能领域,多模态大模型(MLLM)的训练范式长期以来被简化为一条看似高效的流水线:先通过监督微调(SFT)让模型“学会说话”,再通过强化学习(RL)让它“说得更好”。从DeepSeek到Qwen,从GRPO到DAPO,业界不断打磨RL算法的稳定性与效率,却鲜有人质疑这条路径的起点是否真的稳固。

然而,最新研究《Beyond SFT-to-RL》(PRISM团队)揭示了一个令人警醒的事实:SFT不仅没有为RL铺路,反而在悄悄挖坑。许多模型在SFT阶段就已经“带伤训练”,而后续的强化学习,可能只是在努力“还债”,而非真正提升能力。

SFT的“副作用”:性能为何不升反降?

一组来自Qwen3-VL系列模型的实验数据极具说服力。在7个主流多模态基准测试中,模型在SFT后的平均准确率不增反降:

  • Qwen3-VL-4B:从59.7%降至56.8%(-3.0)
  • Qwen3-VL-8B:从63.3%降至58.1%(-5.2)

更令人惊讶的是,即使后续引入GRPO强化学习,8B模型也仅勉强回升至63.3%——刚好回到原始Instruct模型的水平。这意味着,RL阶段所做的努力,可能只是弥补了SFT造成的损伤,而非实现真正的能力跃迁。

这种现象并非个例。研究发现,当SFT使用的数据分布与基座模型原有能力分布不一致时(例如使用GPT或Gemini生成的蒸馏数据),模型极易出现“能力覆盖”问题:新知识挤占了旧知识的表达空间,而真正关键的推理能力却被稀释

两类被忽视的偏差:SFT为何“好心办坏事”?

SFT在多模态场景下的问题,源于两种深层偏差:

偏差一:表面模仿 vs 真实推理

SFT的优化目标是在token级别上最小化损失,这意味着模型对“推理过程”和“输出格式”一视同仁。例如,模型可能更倾向于学习“因为A所以B”这类模板化表达,而非真正理解图像中的视觉线索与逻辑链条。结果是:模型学会了“看起来正确”,而非“真正正确”

偏差二:感知漂移与推理漂移的混淆

多模态模型的失败模式具有双重性:

  • 感知漂移:模型“看错了”,例如误判图像中的物体位置或属性。
  • 推理漂移:模型“想歪了”,例如逻辑推导错误或因果颠倒。

这两种问题成因不同,纠正方式也应不同。但SFT用一个统一的token loss同时拟合,导致模型在感知和推理两端同时偏移,形成“既看不准、又想不对”的复合缺陷。

RL的局限:跑得快,但起点在坑里

当前主流的RL算法(如GRPO、DAPO、GSPO)确实在采样效率、梯度稳定性等方面取得了显著进步。但它们的核心假设是:模型已经处于一个合理的分布起点

现实却是,SFT已将模型推离了最优起点。这就像百米赛跑中,选手被SFT向后推了50米,而RL算法只关心如何跑得更快,却没人把他拉回起跑线。

PRISM的破局之道:三阶段流水线

PRISM团队提出了一种全新的三阶段训练范式:

SFT → 分布对齐(PRISM)→ RLVR

其核心创新在于中间的“分布对齐”阶段,旨在修复SFT引入的分布偏移。

混合专家判别器(MoE Discriminator)

PRISM引入了一个双专家判别器,分别针对感知漂移和推理漂移进行建模:

  • 感知专家:专注于视觉 grounding 的准确性,判断模型是否“看对了”。
  • 推理专家:评估逻辑链条的合理性,判断模型是否“想对了”。

通过这两个专家的协同判断,PRISM能够精准识别模型在哪个环节出错,并引导后续训练进行针对性修复,避免“一刀切”式的优化。

此外,PRISM还采用了一种动态重加权机制,在训练过程中自动调整不同样本的损失权重,优先纠正分布偏移最严重的样本,从而加速模型回归到真实能力分布。

结语:训练范式需要重新校准

多模态大模型的训练远非“SFT+RL”的简单叠加。当模型能力越强,SFT带来的分布偏移风险就越高。PRISM的研究提醒我们:在追求RL效率之前,必须先填平SFT挖下的“隐形断层”

未来的后训练范式,不应只是“跑得更快”,而应首先确保“站在正确的起点”。唯有如此,强化学习才能真正释放其潜力,而非沦为一场漫长的“还债之旅”。

标签: 多模态大模型 SFT 强化学习 分布偏移 PRISM

相关文章

OpenAI推出专为网络安全设计的GPT-5.4-Cyber模型

网络安全的新防线:OpenAI 推出 GPT-5.4-Cyber 模型在数字化浪潮席卷全球的今天,网络安全已不再是技术圈内的“小众议题”,而是关乎企业生存、个人隐私乃至国家安全的战略要地。面对日益复杂...

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI 迈入“造世界”时代:腾讯混元世界模型 2.0 开启 3D 创作新纪元 当 AI 还在“画图”“对话”“生成视频”的赛道上激烈竞争时,腾讯已经悄然将战场推向了更宏大的维度——创造完整、可交互的 3...

AI算力引爆产业变革:芯片到机器人的连锁反应

科技浪潮下的产业变局:从AI算力到智能终端的连锁反应 近期科技产业动态频出,从芯片制造到机器人落地,从仓储智能化到车企战略调整,一系列动作背后,折射出全球科技巨头在AI驱动下的战略布局与产业重构。在这...

企业AI竞争新战场:操作系统层才是关键

企业AI的真正分水岭:从“调用服务”到“操作系统层” 当前,关于企业人工智能的讨论仍聚焦于模型能力本身——GPT与Gemini谁更强?推理分数是否领先?参数规模是否足够庞大?这些技术指标固然重要,但它...

Cursor 3重塑开发范式:智能体成代码主力

从“写代码”到“管智能体”:Cursor 3 如何重塑开发范式 当开发者还在适应 AI 辅助编程的“副驾驶”模式时,Anysphere 已经将 Cursor 推向了一个更激进的阶段——智能体优先。最新...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。