0306-2026年LLM发展趋势深度访谈精编

用户9970

用户3733

5月9日修改

2026年LLM发展趋势深度访谈精编

独立LLM研究员Sebastian Rushka在一期TMO AI播客中分享了对2026年大模型发展的深度观察。作为《从头开始构建大语言模型》的作者，他认为现在的研究重心已经从预训练转向了后训练——"预训练已经很成熟，但后训练还有很多低垂的果实可以摘"。​

最反直觉的洞察是：社交媒体上那些"一次性搞定"的vibe coding成功案例大多是夸张的，真实的开发过程需要多次迭代，即便简单的macOS应用开发也会遇到很多调试问题。​

https://www.youtube.com/watch?v=f9jwTSfIPuM

核心要点

1️⃣ 后训练成为新焦点：研究团队的关注点已从预训练转向post training，因为预训练已非常成熟，而推理训练这种新范式还有很多改进空间​

2️⃣ 可验证奖励革命：推理训练基于可验证奖励（数学/代码答案可对错），相比RLHF的人类反馈，可以评估几乎无限数量的答案，消除了模糊性​

3️⃣ 推理侧扩展实用化：半年前必须用最高推理设置才能获得好结果，现在低/中档设置已足够，模型能自我判断需要多少推理努力​

4️⃣ 工具使用范式转移：大模型正从"记忆答案"转向"使用工具"——就像人类面对复杂计算会用计算器而非心算，这能降低幻觉率​

5️⃣ 界面工程同样重要：通过优化使用界面（如Codex原生集成、文件diff、授权访问整个代码库）从现有模型中挖掘性能，与模型改进同样重要​

6️⃣ vibe coding的真相：社交媒体上"一次性成功"的案例往往是夸张或运气，真实开发即便简单工具也需要多次迭代​

7️⃣ LLM作为开发助手：更聪明的用法是用LLM开发确定性工具（如macOS应用），而非直接用LLM做确定性任务——"如果你只有锤子，看什么都像钉子"​

8️⃣ 格式奖励新探索：除了正确性奖励，还可训练格式奖励（如规定思考过程放在特定标签内），DeepSeek Math 3.2甚至使用多层评估模型​

9️⃣ MoE架构复兴：DeepSeek让混合专家模型重新流行，但这并非根本性变革，而是选择"行之有效的方法"​

🔟 MLA注意力机制：DeepSeek的多头潜在注意力用计算换内存，将在2025-2026年被广泛采用​

1️⃣1️⃣ 稀疏注意力落地：DeepSeek的"吸收注意力"通过小型模型选择关注哪些token，让计算量呈亚平方级增长​

1️⃣2️⃣ 持续学习无路径：目前连实现可靠持续学习的路径都没有，更多是半自动的人工更新，因资源和安全限制难以完全自动化​

1️⃣3️⃣ 长上下文缓解RAG需求：200页PDF可直接放入上下文，对普通用户RAG系统不再必要，但用户需知道提供哪些信息​

1️⃣4️⃣ 多智能体系统挑战：每个模型都有失败率，多智能体组合后失败风险更高，目前缺乏针对多智能体协作环境的专门训练​

1️⃣5️⃣ 自我改进有局限：让模型评估并改进自己的答案有时会过度思考，甚至把正确答案改错，并非万无一失的技术​

---

深度访谈内容

后训练：新的"低垂果实"

主持人：如果你宏观地看我们现在的情况，与一年前相比，你对这个领域的演变有什么广泛的感想？​

Sebastian：看看今天与一年前相比，现在几乎是DeepSeek发布一周年。那个强大的DeepSeek V3模型还有R1模型——我称之为"推理革命"。它仍然是大模型，仍然是相同的基础模型，但我们现在在上面有了更多的技术，是模型在解决复杂问题时变得更聪明。​

从架构上看，大模型的架构看起来仍然相对相似。但如果把今天和去年相比，推理训练是新事物之一。此外我认为现在更侧重于工具的使用。​

回想ChatGPT发布时，重点主要在于通用任务，让大模型通过记忆来回答我们好奇的所有事情。如果你问一个数学问题，大模型基本上会从记忆中提取然后写出答案。但这并不总是最有效或最准确的做法。​

主持人：对我们人类来说也是如此。

Sebastian：没错。作为人类，如果你问我一个复杂的数学题，比如两个大数相乘，我会拿出计算器来算，我不会在脑子里算。大模型也是一样，有了更现代的工具，让大模型使用工具变得越来越流行。​

Sebastian在这里戳破了一个迷思：行业一度认为模型越大、记忆越多就越好，但真正的突破是让模型学会"像人类一样使用工具"。这不是模型架构的变革，而是使用范式的转移。​

---

界面工程：被忽视的优化空间

主持人：谈谈我们今年已经看到的情况，并结合你对大模型在实际应用中现状的看法。​

Sebastian：我们现在才二月第二周，这意味着春节还没到，我觉得到那时还会有一批新发布。但我认为另一件事是：现在有公司围绕大模型开发日益成熟的工具。​

我的假设是，如果你把最好的开源大模型放进比如ChatGPT或Claude的界面里，你几乎能得到相同质量的表现。我认为现在很多用例都是围绕大模型之外的工具包装器展开的。这就是去年年底流行的关于"治理工程"(harness engineering)的概念。​

以前只是一个非常简单的聊天界面，后来变得更复杂了，你可以上传文件和PDF。现在编码工具变得更无缝了——你可以看到文件diff，不需要离开编码环境。当你本地运行这些工具时，你可以授权它访问你的整个文件夹，它可以识别所有文件的上下文。​

主持人：你有没有发现这两个新模型中有没有让你感到惊讶的能力？​

Sebastian：对我个人来说更多是渐进式的，它只是更方便了。我不会说有什么让我感到"哇"的效果。还有一点不同是推理努力之间仍然有区别，这就像一个滑块决定了大模型应该花多少时间来生成结果。​

我记得半年或一年前，如果你想要好的结果，几乎总是得用最高设置，但那得花上好久。现在呢，我觉得哪怕是低阶模式也相当不错。​

Sebastian在这里提出了"界面工程"的概念——很多时候性能提升不是来自模型本身，而是来自如何让模型更好地被使用。这解释了为什么同样的开源模型，在不同的产品里体验差异巨大。​

---

社交媒体上的"一次性成功"有多假

主持人：我很好奇你的经历，社交媒体上经常看到新模型发布时，有人说"我一次性搞定了这个"。我记得最近一次看到这种，我也去试了一下，结果惨不忍睹。你也有类似的经历吗？​

Sebastian：是的，我也这么认为。我之前提到过我的mac原生应用，当时为了让所有按钮都正常工作，即便用了Codex 0.5.2也尝试了很多次。​

就像你说的，这绝对不是一蹴而就的，而是经过了多次迭代才成功。我有时会想，是不是我的指令写的不好。也许你必须超级明确的说"请彻底测试所有内容，确保一切正常"等等。​

我们通常不会说的那么细，因为我们默认它会确保一切正常。或者我们看到的那些成功案例可能只是运气好。有时候在某些事情上它恰好表现得很好，所以我也不确定。​

这段对话戳破了vibe coding最大的泡沫。社交媒体上那些"一次性成功"的帖子，要么是指令写得极其详细（普通人不会这么做），要么就是运气好的幸存者偏差。真实开发即便简单工具也需要多次迭代——这是Sebastian作为一线开发者的真实体验。​

---

可验证奖励：推理训练的核心

主持人：我去年经常听到的一个词是"可验证奖励"。这导致了或者说促成了我们在代码模型方面看到的很多进步。你能谈谈这种范式吗？​

0306-2026年LLM发展趋势深度访谈精编​

0306-2026年LLM发展趋势深度访谈精编