✍️ 主编按语

多模态大模型后训练的隐秘断层：RL算法跑得再快，也怕SFT挖的坑

【今日焦点】 今日深度聚焦多模态大模型训练范式的致命盲点。一项由多所顶尖高校联合提出的 PRISM 研究揭示了行业内长期被忽视的真相：在主流的 SFT 之后直接进行 RL 的流程中，强化学习往往并非在提升模型能力，而只是在填补 SFT 阶段留下的“分布断层”。这一发现不仅挑战了 DeepSeek、Qwen 等主流模型遵循的既定范式，更为解决多模态模型的“感知漂移”与“推理漂移”提供了全新的三阶段解决方案。

AI 训练范式革新

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

这篇来自香港科技大学（广州）等机构的研究，无异于给当下狂飙突进的 AI 训练社区泼了一盆冷水，但也指明了方向。长久以来，我们将“SFT + RL”奉为圭臬，不断优化从 GRPO 到 DAPO 的各种 RL 算法，试图通过更复杂的奖励模型和更高的采样效率来榨干模型性能。然而，PRISM 团队用一组令人触目惊心的数据打破了幻象：在 Qwen3-VL 等强基座模型上，SFT 后性能反而显著下跌（8B 模型暴跌 5.2%），随后的 RL 艰苦训练仅仅是将模型拉回了原点。换句话说，我们引以为傲的 RL 进程，本质上是一场“还债”之旅。

这就引出了一个核心问题：为什么越强的模型，SFT 的副作用越大？文章深刻剖析了根源——分布漂移。多模态模型有着比纯文本模型更脆弱的平衡，SFT 引入的偏差不仅是“表面模仿”，更可怕的是它将“感知漂移”（看错图）和“推理漂移”（想歪了）混在一个 Token loss 里进行无差别拟合。这就像逼着一个近视的人去模仿戴眼镜的人的动作，结果动作学像了，视力却更差了。

PRISM 的解决方案不仅精妙，而且极具工程实用性。它没有全盘否定 SFT，而是在 SFT 和 RL 之间插入了一个关键的“分布对齐”阶段。通过引入混合专家判别器，将感知与推理的评估解耦，分别用 D_v 和 D_r 两个专家进行纠偏。更绝的是，它采用“黑盒蒸馏”，只需调用 Gemini 等 API 的输出即可，无需访问教师模型权重。此外，研究者大胆去掉了传统 RL 中的 KL 正则化，因为对齐的目标本就是为了偏离那个“有偏差”的 SFT 分布。实验数据显示，这一补丁为 8B 模型带来了平均 6.0 个点的提升，证明了在盲目堆砌算力和算法之前，理清训练逻辑的分布几何才是通往 AGI 的捷径。

编者洞察

这项研究的价值远超技术细节本身，它揭示了一个深层次的行业焦虑：在大模型参数规模触顶的今天，我们是否陷入了“算法内卷”的误区？当我们死磕 RLHF 的数学公式时，却忽略了数据分布这一更基础的物理法则。PRISM 的提出，标志着模型训练从“暴力美学”向“精细手术”的转变。对于开发者而言，这意味着在未来的模型调优中，审视 SFT 数据的质量与分布一致性，可能比设计一个更花哨的奖励函数更为关键。这也预示着，未来的多模态大模型竞赛，将不再是单纯比拼谁的 RL 跑得快，而是比谁能更早发现并填平训练流程中的那些隐形断层。

🔥 热门文章 (1 篇)

AI/ML量子位8.0

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

文章揭示了多模态大模型后训练中SFT可能引入分布偏差导致性能倒退的问题，并介绍了PRISM方案通过引入分布对齐阶段来修复这一断层。

2026-05-17 03:42

⚡ 快速浏览

量子位6.0

Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日，来现场一起AI

文章预告了第四届中国AIGC产业峰会的议程与亮点，涵盖Agent落地、多模态突破、算力变革及头部企业实战案例。

量子位6.0

世界大学生超级计算机竞赛首设“英才对接”环节，搭建“赛场—职场”人才供需桥梁

世界大学生超级计算机竞赛首次设立“英才对接”环节，旨在连接赛事与职场，促进人才供需对接。