分享
0201-DeepSeek-RLVR-GRPO
输入“/”快速插入内容
0201-DeepSeek-RLVR-GRPO
用户9970
用户9970
2月1日修改
0201:Sebastian Raschka X The MAD Podcast:DeepSeek 时刻——RLVR 与 GRPO 重新定义 AI 推理
今天看到 Sebastian Raschka 去了 The MAD Podcast 的播客。
Sebastian Raschka 是一位机器学习研究员和教育者,著有《Build a Large Language Model (From Scratch)》和《Build a Reasoning Model (From Scratch)》等畅销技术书籍,在 AI 社区拥有广泛影响力。
这期播客主要讨论了 DeepSeek 带来的范式转变,以及 RLVR(可验证奖励强化学习)和 GRPO 如何重新定义 AI 推理模型。Sebastian 谈到了以下核心观点:
1、RLHF 将 GPT 提升为 ChatGPT,而 RLVR 则实现了从简单聊天模型到推理模型的第二次飞跃。两者代表了 AI 能力演进的不同阶段。
2、RLVR 的核心创新在于从"下一个token预测"转向"评估完整答案"。对于数学问题,模型可以判断最终答案是否正确,而非仅依赖人类偏好判断。
3、可验证奖励机制消除了对大规模人类反馈数据的依赖。任务结果可以被自动验证,大大降低了训练和部署成本。
4、传统 RLHF 需要一个大型语言模型持续在循环中参与评估,而 RLVR 可以绕过这一限制,实现更高效的模型训练。
5、DeepSeek 的成功证明了数据效率的重要性。用更少的数据和计算资源,也能训练出顶尖性能的模型。
6、GRPO(Group Relative Policy Optimization)作为新的优化方法,相比传统 PPO 更加稳定高效,代表了强化学习训练技术的进步。
7、推理模型的评估指标正在从"人类偏好"转向"任务完成度"。可验证任务(如数学、代码)成为衡量推理能力的关键标准。
8、这一技术转变对 AI 应用开发者意味着:未来 AI 系统的能力边界将更多取决于任务的可验证性,而非模型规模的简单扩张。
9、开源社区正在快速跟进 RLVR 技术路线。DeepSeek 的开源策略加速了整个行业的技术迭代。
10、Sebastian 强调,理解这些底层技术原理对于 AI 研究者和从业者至关重要,这是把握未来技术方向的关键。
---
精华片段
断断续续看完了 Sebastian Raschka 在 The MAD Podcast 这期关于 DeepSeek 的讨论。
干货很多。Sebastian 可能是当前最能把这波 AI 推理技术讲清楚的学者之一。他那两本"从零构建"系列书籍,我身边做 AI 的朋友几乎人手一本。
这期播客大概 30 多分钟,主要聊了 RLVR 和 GRPO 这两个技术点。主持人 Matt Turck 开门见山:DeepSeek 到底意味着什么?为什么业内称之为"DeepSeek 时刻"?
Sebastian 的回答很清晰:RLHF 是第一次飞跃,让大模型从单纯的文本生成变成可以对话的助手。而 RLVR 是第二次飞跃,让模型具备了真正的推理能力。区别在于,RLHF 本质上还是在做下一个 token 的预测,只是训练数据变成了人类偏好的对话。而 RLVR 直接看最终答案——数学题做对了还是错了,代码能不能运行。这种可验证的奖励信号,比人类主观评价要稳定得多。
主持人追问:那这对我们做 AI 应用的人意味着什么?
Sebastian 说了一个很反直觉的观点:未来 AI 能力的边界,可能更多取决于任务本身能不能被验证,而不是模型有多大。数学、代码、逻辑推理——这些任务的结果是可以明确判断的,所以特别适合 RLVR 的范式。但如果是创意写作、情感陪伴这类主观性强的任务,可能还是需要传统的 RLHF。
我补充一下背景。DeepSeek 之所以引起轰动,是因为他们用相对有限的资源,做出了和 OpenAI o1 级别相当的推理模型。而且他们开源了部分技术细节,这在业内很少见。Sebastian 在播客里也提到了这点——开源社区正在快速跟进这条技术路线。
Sebastian 分享了一个技术细节:传统的 PPO 训练强化学习模型很复杂,需要很多技巧才能稳定收敛。但 GRPO 简化了这个过程,用组内相对评分来代替全局价值函数,训练更稳,效果更好。
主持人问了一个我也很关心的问题:对于普通开发者来说,现在应该关注什么?
Sebastian 的建议是:如果你在做 AI 应用,关注任务的可验证性设计;如果你在做模型研究,RLVR 和 GRPO 这两个方向值得深入。他说得很直接:理解底层原理,比会调 API 重要得多。
最后主持人问,DeepSeek 之后,AI 领域下一个大事件会是什么?
Sebastian 笑着说不知道,但如果让他猜,可能是多模态推理的突破——让模型不仅能推理文字,还能推理图像、视频和3D空间。
这期访谈信息密度很高,建议结合 Sebastian 的书一起看,理解会更深。
---
YouTube 链接:
https://www.youtube.com/watch?v=huSgnkJ7Fqc