分享
0306-2026年LLM发展趋势深度访谈精编
输入“/”快速插入内容
0306-2026年LLM发展趋势深度访谈精编
用户9970
用户9970
用户3733
用户3733
5月9日修改
2026年LLM发展趋势深度访谈精编
独立LLM研究员Sebastian Rushka在一期TMO AI播客中分享了对2026年大模型发展的深度观察。作为《从头开始构建大语言模型》的作者,他认为现在的研究重心已经从预训练转向了后训练——"预训练已经很成熟,但后训练还有很多低垂的果实可以摘"。
最反直觉的洞察是:社交媒体上那些"一次性搞定"的vibe coding成功案例大多是夸张的,真实的开发过程需要多次迭代,即便简单的macOS应用开发也会遇到很多调试问题。
https://www.youtube.com/watch?v=f9jwTSfIPuM
核心要点
1️⃣ 后训练成为新焦点:研究团队的关注点已从预训练转向post training,因为预训练已非常成熟,而推理训练这种新范式还有很多改进空间
2️⃣ 可验证奖励革命:推理训练基于可验证奖励(数学/代码答案可对错),相比RLHF的人类反馈,可以评估几乎无限数量的答案,消除了模糊性
3️⃣ 推理侧扩展实用化:半年前必须用最高推理设置才能获得好结果,现在低/中档设置已足够,模型能自我判断需要多少推理努力
4️⃣ 工具使用范式转移:大模型正从"记忆答案"转向"使用工具"——就像人类面对复杂计算会用计算器而非心算,这能降低幻觉率
5️⃣ 界面工程同样重要:通过优化使用界面(如Codex原生集成、文件diff、授权访问整个代码库)从现有模型中挖掘性能,与模型改进同样重要
6️⃣ vibe coding的真相:社交媒体上"一次性成功"的案例往往是夸张或运气,真实开发即便简单工具也需要多次迭代
7️⃣ LLM作为开发助手:更聪明的用法是用LLM开发确定性工具(如macOS应用),而非直接用LLM做确定性任务——"如果你只有锤子,看什么都像钉子"
8️⃣ 格式奖励新探索:除了正确性奖励,还可训练格式奖励(如规定思考过程放在特定标签内),DeepSeek Math 3.2甚至使用多层评估模型
9️⃣ MoE架构复兴:DeepSeek让混合专家模型重新流行,但这并非根本性变革,而是选择"行之有效的方法"
🔟 MLA注意力机制:DeepSeek的多头潜在注意力用计算换内存,将在2025-2026年被广泛采用
1️⃣1️⃣ 稀疏注意力落地:DeepSeek的"吸收注意力"通过小型模型选择关注哪些token,让计算量呈亚平方级增长
1️⃣2️⃣ 持续学习无路径:目前连实现可靠持续学习的路径都没有,更多是半自动的人工更新,因资源和安全限制难以完全自动化
1️⃣3️⃣ 长上下文缓解RAG需求:200页PDF可直接放入上下文,对普通用户RAG系统不再必要,但用户需知道提供哪些信息
1️⃣4️⃣ 多智能体系统挑战:每个模型都有失败率,多智能体组合后失败风险更高,目前缺乏针对多智能体协作环境的专门训练
1️⃣5️⃣ 自我改进有局限:让模型评估并改进自己的答案有时会过度思考,甚至把正确答案改错,并非万无一失的技术
---
深度访谈内容
后训练:新的"低垂果实"
主持人:如果你宏观地看我们现在的情况,与一年前相比,你对这个领域的演变有什么广泛的感想?
Sebastian:看看今天与一年前相比,现在几乎是DeepSeek发布一周年。那个强大的DeepSeek V3模型还有R1模型——我称之为"推理革命"。它仍然是大模型,仍然是相同的基础模型,但我们现在在上面有了更多的技术,是模型在解决复杂问题时变得更聪明。
从架构上看,大模型的架构看起来仍然相对相似。但如果把今天和去年相比,推理训练是新事物之一。此外我认为现在更侧重于工具的使用。
回想ChatGPT发布时,重点主要在于通用任务,让大模型通过记忆来回答我们好奇的所有事情。如果你问一个数学问题,大模型基本上会从记忆中提取然后写出答案。但这并不总是最有效或最准确的做法。
主持人:对我们人类来说也是如此。
Sebastian:没错。作为人类,如果你问我一个复杂的数学题,比如两个大数相乘,我会拿出计算器来算,我不会在脑子里算。大模型也是一样,有了更现代的工具,让大模型使用工具变得越来越流行。
Sebastian在这里戳破了一个迷思:行业一度认为模型越大、记忆越多就越好,但真正的突破是让模型学会"像人类一样使用工具"。这不是模型架构的变革,而是使用范式的转移。
---
界面工程:被忽视的优化空间
主持人:谈谈我们今年已经看到的情况,并结合你对大模型在实际应用中现状的看法。
Sebastian:我们现在才二月第二周,这意味着春节还没到,我觉得到那时还会有一批新发布。但我认为另一件事是:现在有公司围绕大模型开发日益成熟的工具。
我的假设是,如果你把最好的开源大模型放进比如ChatGPT或Claude的界面里,你几乎能得到相同质量的表现。我认为现在很多用例都是围绕大模型之外的工具包装器展开的。这就是去年年底流行的关于"治理工程"(harness engineering)的概念。
以前只是一个非常简单的聊天界面,后来变得更复杂了,你可以上传文件和PDF。现在编码工具变得更无缝了——你可以看到文件diff,不需要离开编码环境。当你本地运行这些工具时,你可以授权它访问你的整个文件夹,它可以识别所有文件的上下文。
主持人:你有没有发现这两个新模型中有没有让你感到惊讶的能力?
Sebastian:对我个人来说更多是渐进式的,它只是更方便了。我不会说有什么让我感到"哇"的效果。还有一点不同是推理努力之间仍然有区别,这就像一个滑块决定了大模型应该花多少时间来生成结果。
我记得半年或一年前,如果你想要好的结果,几乎总是得用最高设置,但那得花上好久。现在呢,我觉得哪怕是低阶模式也相当不错。
Sebastian在这里提出了"界面工程"的概念——很多时候性能提升不是来自模型本身,而是来自如何让模型更好地被使用。这解释了为什么同样的开源模型,在不同的产品里体验差异巨大。
---
社交媒体上的"一次性成功"有多假
主持人:我很好奇你的经历,社交媒体上经常看到新模型发布时,有人说"我一次性搞定了这个"。我记得最近一次看到这种,我也去试了一下,结果惨不忍睹。你也有类似的经历吗?
Sebastian:是的,我也这么认为。我之前提到过我的mac原生应用,当时为了让所有按钮都正常工作,即便用了Codex 0.5.2也尝试了很多次。
就像你说的,这绝对不是一蹴而就的,而是经过了多次迭代才成功。我有时会想,是不是我的指令写的不好。也许你必须超级明确的说"请彻底测试所有内容,确保一切正常"等等。
我们通常不会说的那么细,因为我们默认它会确保一切正常。或者我们看到的那些成功案例可能只是运气好。有时候在某些事情上它恰好表现得很好,所以我也不确定。
这段对话戳破了vibe coding最大的泡沫。社交媒体上那些"一次性成功"的帖子,要么是指令写得极其详细(普通人不会这么做),要么就是运气好的幸存者偏差。真实开发即便简单工具也需要多次迭代——这是Sebastian作为一线开发者的真实体验。
---
可验证奖励:推理训练的核心
主持人:我去年经常听到的一个词是"可验证奖励"。这导致了或者说促成了我们在代码模型方面看到的很多进步。你能谈谈这种范式吗?