0201-DeepSeek-RLVR-GRPO

用户9970

2月1日修改

0201：Sebastian Raschka X The MAD Podcast：DeepSeek 时刻——RLVR 与 GRPO 重新定义 AI 推理​

今天看到 Sebastian Raschka 去了 The MAD Podcast 的播客。

Sebastian Raschka 是一位机器学习研究员和教育者，著有《Build a Large Language Model (From Scratch)》和《Build a Reasoning Model (From Scratch)》等畅销技术书籍，在 AI 社区拥有广泛影响力。​

这期播客主要讨论了 DeepSeek 带来的范式转变，以及 RLVR（可验证奖励强化学习）和 GRPO 如何重新定义 AI 推理模型。Sebastian 谈到了以下核心观点：​

1、RLHF 将 GPT 提升为 ChatGPT，而 RLVR 则实现了从简单聊天模型到推理模型的第二次飞跃。两者代表了 AI 能力演进的不同阶段。​

2、RLVR 的核心创新在于从"下一个token预测"转向"评估完整答案"。对于数学问题，模型可以判断最终答案是否正确，而非仅依赖人类偏好判断。​

3、可验证奖励机制消除了对大规模人类反馈数据的依赖。任务结果可以被自动验证，大大降低了训练和部署成本。​

4、传统 RLHF 需要一个大型语言模型持续在循环中参与评估，而 RLVR 可以绕过这一限制，实现更高效的模型训练。​

5、DeepSeek 的成功证明了数据效率的重要性。用更少的数据和计算资源，也能训练出顶尖性能的模型。​

6、GRPO（Group Relative Policy Optimization）作为新的优化方法，相比传统 PPO 更加稳定高效，代表了强化学习训练技术的进步。​

7、推理模型的评估指标正在从"人类偏好"转向"任务完成度"。可验证任务（如数学、代码）成为衡量推理能力的关键标准。​

8、这一技术转变对 AI 应用开发者意味着：未来 AI 系统的能力边界将更多取决于任务的可验证性，而非模型规模的简单扩张。​

9、开源社区正在快速跟进 RLVR 技术路线。DeepSeek 的开源策略加速了整个行业的技术迭代。​

10、Sebastian 强调，理解这些底层技术原理对于 AI 研究者和从业者至关重要，这是把握未来技术方向的关键。​

---

精华片段

断断续续看完了 Sebastian Raschka 在 The MAD Podcast 这期关于 DeepSeek 的讨论。​

干货很多。Sebastian 可能是当前最能把这波 AI 推理技术讲清楚的学者之一。他那两本"从零构建"系列书籍，我身边做 AI 的朋友几乎人手一本。​

这期播客大概 30 多分钟，主要聊了 RLVR 和 GRPO 这两个技术点。主持人 Matt Turck 开门见山：DeepSeek 到底意味着什么？为什么业内称之为"DeepSeek 时刻"？​

Sebastian 的回答很清晰：RLHF 是第一次飞跃，让大模型从单纯的文本生成变成可以对话的助手。而 RLVR 是第二次飞跃，让模型具备了真正的推理能力。区别在于，RLHF 本质上还是在做下一个 token 的预测，只是训练数据变成了人类偏好的对话。而 RLVR 直接看最终答案——数学题做对了还是错了，代码能不能运行。这种可验证的奖励信号，比人类主观评价要稳定得多。​

主持人追问：那这对我们做 AI 应用的人意味着什么？

Sebastian 说了一个很反直觉的观点：未来 AI 能力的边界，可能更多取决于任务本身能不能被验证，而不是模型有多大。数学、代码、逻辑推理——这些任务的结果是可以明确判断的，所以特别适合 RLVR 的范式。但如果是创意写作、情感陪伴这类主观性强的任务，可能还是需要传统的 RLHF。​

我补充一下背景。DeepSeek 之所以引起轰动，是因为他们用相对有限的资源，做出了和 OpenAI o1 级别相当的推理模型。而且他们开源了部分技术细节，这在业内很少见。Sebastian 在播客里也提到了这点——开源社区正在快速跟进这条技术路线。​

Sebastian 分享了一个技术细节：传统的 PPO 训练强化学习模型很复杂，需要很多技巧才能稳定收敛。但 GRPO 简化了这个过程，用组内相对评分来代替全局价值函数，训练更稳，效果更好。​

主持人问了一个我也很关心的问题：对于普通开发者来说，现在应该关注什么？​

Sebastian 的建议是：如果你在做 AI 应用，关注任务的可验证性设计；如果你在做模型研究，RLVR 和 GRPO 这两个方向值得深入。他说得很直接：理解底层原理，比会调 API 重要得多。​

最后主持人问，DeepSeek 之后，AI 领域下一个大事件会是什么？​

Sebastian 笑着说不知道，但如果让他猜，可能是多模态推理的突破——让模型不仅能推理文字，还能推理图像、视频和3D空间。​

这期访谈信息密度很高，建议结合 Sebastian 的书一起看，理解会更深。​

---

YouTube 链接：https://www.youtube.com/watch?v=huSgnkJ7Fqc

0201-DeepSeek-RLVR-GRPO​

0201-DeepSeek-RLVR-GRPO