奔跑的高达

多模态大模型训练范式大反转:RL竟然是在替SFT还债

2026-05-17

✍️ 主编按语

多模态大模型后训练的隐秘断层:RL算法跑得再快,也怕SFT挖的坑

【今日焦点】 今日深度聚焦多模态大模型训练范式的致命盲点。一项由多所顶尖高校联合提出的 PRISM 研究揭示了行业内长期被忽视的真相:在主流的 SFT 之后直接进行 RL 的流程中,强化学习往往并非在提升模型能力,而只是在填补 SFT 阶段留下的“分布断层”。这一发现不仅挑战了 DeepSeek、Qwen 等主流模型遵循的既定范式,更为解决多模态模型的“感知漂移”与“推理漂移”提供了全新的三阶段解决方案。

AI 训练范式革新

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

这篇来自香港科技大学(广州)等机构的研究,无异于给当下狂飙突进的 AI 训练社区泼了一盆冷水,但也指明了方向。长久以来,我们将“SFT + RL”奉为圭臬,不断优化从 GRPO 到 DAPO 的各种 RL 算法,试图通过更复杂的奖励模型和更高的采样效率来榨干模型性能。然而,PRISM 团队用一组令人触目惊心的数据打破了幻象:在 Qwen3-VL 等强基座模型上,SFT 后性能反而显著下跌(8B 模型暴跌 5.2%),随后的 RL 艰苦训练仅仅是将模型拉回了原点。换句话说,我们引以为傲的 RL 进程,本质上是一场“还债”之旅。

这就引出了一个核心问题:为什么越强的模型,SFT 的副作用越大?文章深刻剖析了根源——分布漂移。多模态模型有着比纯文本模型更脆弱的平衡,SFT 引入的偏差不仅是“表面模仿”,更可怕的是它将“感知漂移”(看错图)和“推理漂移”(想歪了)混在一个 Token loss 里进行无差别拟合。这就像逼着一个近视的人去模仿戴眼镜的人的动作,结果动作学像了,视力却更差了。

PRISM 的解决方案不仅精妙,而且极具工程实用性。它没有全盘否定 SFT,而是在 SFT 和 RL 之间插入了一个关键的“分布对齐”阶段。通过引入混合专家判别器,将感知与推理的评估解耦,分别用 D_v 和 D_r 两个专家进行纠偏。更绝的是,它采用“黑盒蒸馏”,只需调用 Gemini 等 API 的输出即可,无需访问教师模型权重。此外,研究者大胆去掉了传统 RL 中的 KL 正则化,因为对齐的目标本就是为了偏离那个“有偏差”的 SFT 分布。实验数据显示,这一补丁为 8B 模型带来了平均 6.0 个点的提升,证明了在盲目堆砌算力和算法之前,理清训练逻辑的分布几何才是通往 AGI 的捷径。

编者洞察

这项研究的价值远超技术细节本身,它揭示了一个深层次的行业焦虑:在大模型参数规模触顶的今天,我们是否陷入了“算法内卷”的误区?当我们死磕 RLHF 的数学公式时,却忽略了数据分布这一更基础的物理法则。PRISM 的提出,标志着模型训练从“暴力美学”向“精细手术”的转变。对于开发者而言,这意味着在未来的模型调优中,审视 SFT 数据的质量与分布一致性,可能比设计一个更花哨的奖励函数更为关键。这也预示着,未来的多模态大模型竞赛,将不再是单纯比拼谁的 RL 跑得快,而是比谁能更早发现并填平训练流程中的那些隐形断层。

🔥 热门文章 (1 篇)

快速浏览