当前位置：首页 > AI资讯 > 正文内容

多模态大模型SFT竟成RL绊脚石

admin2周前 (05-17)AI资讯43

多模态大模型的“隐形伤”：SFT之后，RL真的在进步吗？

在人工智能领域，多模态大模型（MLLM）的训练范式长期以来被简化为一条看似高效的流水线：先通过监督微调（SFT）让模型“学会说话”，再通过强化学习（RL）让它“说得更好”。从DeepSeek到Qwen，从GRPO到DAPO，业界不断打磨RL算法的稳定性与效率，却鲜有人质疑这条路径的起点是否真的稳固。

然而，最新研究《Beyond SFT-to-RL》（PRISM团队）揭示了一个令人警醒的事实：SFT不仅没有为RL铺路，反而在悄悄挖坑。许多模型在SFT阶段就已经“带伤训练”，而后续的强化学习，可能只是在努力“还债”，而非真正提升能力。

SFT的“副作用”：性能为何不升反降？

一组来自Qwen3-VL系列模型的实验数据极具说服力。在7个主流多模态基准测试中，模型在SFT后的平均准确率不增反降：

Qwen3-VL-4B：从59.7%降至56.8%（-3.0）
Qwen3-VL-8B：从63.3%降至58.1%（-5.2）

更令人惊讶的是，即使后续引入GRPO强化学习，8B模型也仅勉强回升至63.3%——刚好回到原始Instruct模型的水平。这意味着，RL阶段所做的努力，可能只是弥补了SFT造成的损伤，而非实现真正的能力跃迁。

这种现象并非个例。研究发现，当SFT使用的数据分布与基座模型原有能力分布不一致时（例如使用GPT或Gemini生成的蒸馏数据），模型极易出现“能力覆盖”问题：新知识挤占了旧知识的表达空间，而真正关键的推理能力却被稀释。

两类被忽视的偏差：SFT为何“好心办坏事”？

SFT在多模态场景下的问题，源于两种深层偏差：

偏差一：表面模仿 vs 真实推理

SFT的优化目标是在token级别上最小化损失，这意味着模型对“推理过程”和“输出格式”一视同仁。例如，模型可能更倾向于学习“因为A所以B”这类模板化表达，而非真正理解图像中的视觉线索与逻辑链条。结果是：模型学会了“看起来正确”，而非“真正正确”。

偏差二：感知漂移与推理漂移的混淆

多模态模型的失败模式具有双重性：

感知漂移：模型“看错了”，例如误判图像中的物体位置或属性。
推理漂移：模型“想歪了”，例如逻辑推导错误或因果颠倒。

这两种问题成因不同，纠正方式也应不同。但SFT用一个统一的token loss同时拟合，导致模型在感知和推理两端同时偏移，形成“既看不准、又想不对”的复合缺陷。

RL的局限：跑得快，但起点在坑里

当前主流的RL算法（如GRPO、DAPO、GSPO）确实在采样效率、梯度稳定性等方面取得了显著进步。但它们的核心假设是：模型已经处于一个合理的分布起点。

现实却是，SFT已将模型推离了最优起点。这就像百米赛跑中，选手被SFT向后推了50米，而RL算法只关心如何跑得更快，却没人把他拉回起跑线。

PRISM的破局之道：三阶段流水线

PRISM团队提出了一种全新的三阶段训练范式：

SFT → 分布对齐（PRISM）→ RLVR

其核心创新在于中间的“分布对齐”阶段，旨在修复SFT引入的分布偏移。

混合专家判别器（MoE Discriminator）

PRISM引入了一个双专家判别器，分别针对感知漂移和推理漂移进行建模：

感知专家：专注于视觉 grounding 的准确性，判断模型是否“看对了”。
推理专家：评估逻辑链条的合理性，判断模型是否“想对了”。

通过这两个专家的协同判断，PRISM能够精准识别模型在哪个环节出错，并引导后续训练进行针对性修复，避免“一刀切”式的优化。

此外，PRISM还采用了一种动态重加权机制，在训练过程中自动调整不同样本的损失权重，优先纠正分布偏移最严重的样本，从而加速模型回归到真实能力分布。

结语：训练范式需要重新校准

多模态大模型的训练远非“SFT+RL”的简单叠加。当模型能力越强，SFT带来的分布偏移风险就越高。PRISM的研究提醒我们：在追求RL效率之前，必须先填平SFT挖下的“隐形断层”。

未来的后训练范式，不应只是“跑得更快”，而应首先确保“站在正确的起点”。唯有如此，强化学习才能真正释放其潜力，而非沦为一场漫长的“还债之旅”。

标签： 多模态大模型 SFT 强化学习 分布偏移 PRISM

标签: 多模态大模型 SFT训练强化学习RL 模型性能下降 AI训练范式

返回列表

上一篇：大模型收费时代来临：豆包分层定价引热议

下一篇：AI浪潮重塑全球科技格局

玖捌肆贰

多模态大模型SFT竟成RL绊脚石

多模态大模型的“隐形伤”：SFT之后，RL真的在进步吗？

SFT的“副作用”：性能为何不升反降？

两类被忽视的偏差：SFT为何“好心办坏事”？

偏差一：表面模仿 vs 真实推理

偏差二：感知漂移与推理漂移的混淆

RL的局限：跑得快，但起点在坑里

PRISM的破局之道：三阶段流水线

混合专家判别器（MoE Discriminator）

结语：训练范式需要重新校准

相关文章

OpenAI推出专为网络安全设计的GPT-5.4-Cyber模型

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI算力引爆产业变革：芯片到机器人的连锁反应

企业AI竞争新战场：操作系统层才是关键

Cursor 3重塑开发范式：智能体成代码主力

腾讯QClaw用5天打开全球AI智能体市场

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

多模态大模型SFT竟成RL绊脚石

多模态大模型的“隐形伤”：SFT之后，RL真的在进步吗？

SFT的“副作用”：性能为何不升反降？

两类被忽视的偏差：SFT为何“好心办坏事”？

偏差一：表面模仿 vs 真实推理

偏差二：感知漂移与推理漂移的混淆

RL的局限：跑得快，但起点在坑里

PRISM的破局之道：三阶段流水线

混合专家判别器（MoE Discriminator）

结语：训练范式需要重新校准

相关文章

OpenAI推出专为网络安全设计的GPT-5.4-Cyber模型

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI算力引爆产业变革：芯片到机器人的连锁反应

企业AI竞争新战场：操作系统层才是关键

Cursor 3重塑开发范式：智能体成代码主力

腾讯QClaw用5天打开全球AI智能体市场

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论