分享
0228-7人团队超越OpenAI的脚手架秘密
输入“/”快速插入内容
0228-7人团队超越OpenAI的脚手架秘密
用户9970
用户9970
用户3733
用户3733
5月9日修改
播客名称:
Y Combinator Lightcone
嘉宾:Ian Fischer
Ian Fischer 是 Poetic 的联合创始人兼 CEO,前 Google DeepMind 研究员,团队仅 7 人。他们在 ARC-AGI 和 Humanity's Last Exam 基准上超越了 OpenAI 和 Anthropic。
这期播客总共录了约 20 分钟,Ian 谈到了 12 个有趣的观点:
1、Poetic 做的是递归自我改进系统——让 AI 自己优化自己。这被认为是 AI 的"圣杯",但他们用远低于训练新模型的成本做到了(不到 10 万美元 vs 数百亿美元)。
2、Fine-tuning 是"燃烧的钱"。初创公司花数百万微调后,新一代基础模型发布,一切归零。你永远追不上 Anthropic 和 OpenAI 的发布节奏。
3、他们的系统叫"脚手架"(Stilts)——坐在基础模型上面的推理系统。当你站在脚手架上,任何新模型发布,你都能变得比它更高。
4、ARC-AGI V2 发布时,Google Gemini Deep Think 以 45% 领先。两天后 Poetic 用 Gemini 3 Pro(更便宜的模型)+ 脚手架达到 54%,成本只有对手一半。
5、最近他们在 Humanity's Last Exam(2500 道各领域 PhD 级别难题)达到 55%,超越 Anthropic Claude Opus 4.6 的 53.1%。而且成本不到 10 万美元。
6、团队只有 7 人——全是研究科学家和研究工程师。这是典型的小团队 AGI 研究模式。
7、传统 ML 范式是你必须非常了解数据集,但他们在把这个过程外包给 AI——让 AI 自己找出失败模式,自己构建推理策略。
8、他们的系统不只是优化 prompts,还包括推理策略、代码结构、上下文填充、总结方式——是整个"推理系统"的优化。
9、他们发表过一篇论文,手动优化 Gemini 1.5 Flash 从 5% 提升到 95%——关键是加入推理策略(reasoning strategies),不是更好的 prompt。
10、对于初创公司,脚手架范式意味着:你的 agent 不再绑定某个特定模型,可以随着基础模型进化而自动进化。
11、他对工程师的建议:每天都要用 AI 做事,push 自己找到模型的能力边界。8 个月前用 GPT-5 写 iOS app 已很简单,现在更容易。
12、这代表着与 RL(强化学习)完全不同的新范式——不是训练新模型,而是优化"如何使用模型"。
---
精华片段
断断续续看完这期 Poetic 的访谈,干货密度太高了。
Ian Fischer 之前在 Google DeepMind 做了十年机器学习研究,后来自己创业。之前做的是移动开发工具公司(被 Google 收购),后来决定转向 AI。
这期的主题非常有意思:小团队如何用"脚手架"超越大公司的基础模型。
---
#01 脚手架的诞生
主持人: 什么是 Poetic?和 RL 有什么区别?
Ian: 我们做的是递归自我改进系统——让 AI 自己让自己变得更聪明。核心洞察是,我们可以比任何其他方式更快、更便宜地实现递归自我改进。
其他方法都需要从零训练新 LLM,成本是数百亿美元、耗时几个月。而 Anthropic 或 OpenAI 下一版模型发布,你的成果就过时了。
主持人: 这是初创公司最想要的东西。你刚说的 Bitter Lesson——如果没有 Poetic,你们会怎么做?
Ian: 通常是:先收集数万条特定问题的数据,花大钱微调 frontier model。然后新模型发布,一切归零。你做的是重复烧钱。
有了 Poetic,你得到的是一个"脚手架"——坐在模型上面的推理系统。当新模型发布,你的脚手架继续可用,性能提升更明显。成本还低得多。
---
#02 超越 Gemini 和 Claude
主持人: 你们在 ARC-AGI 的成绩真的很疯狂。
Ian: Gemini 3 Deep Think 发布时达到 45%,两天后我们用更便宜的 Gemini 3 Pro + 脚手架达到 54%。成本只有 32 美元/题 vs 70 美元。
主持人: Humanity's Last Exam 呢?
Ian: 2500 道各领域 PhD 级别难题。之前 Anthropic Claude Opus 4.6 是 53.1%。我们达到 55%。关键是成本不到 10 万美元——而每次基础模型训练都是数百亿。
---
#03 7人团队的秘诀
主持人: 你们只有 7 个人?
Ian: 对,7 个研究科学家和研究工程师。
主持人: 这真的很反直觉。现在 AI 圈都在堆算力,你们用小团队做到这个?
Ian: 我们把过去需要人来做的工作——优化 evals、调整 prompts、上下文工程——全部自动化了。系统自己找出失败模式,自己构建推理策略。
我们不手动查看数据——是 AI 在看数据,然后告诉我们需要什么。
---
#04 对工程师的建议
Ian: 我的建议就是——每天都要用 AI 做事。我去年周末用 GPT-5 帮我写了一个 iOS app,十年没做这个了。八个月前的事,现在已经更容易了。
不要设限——想象任何你想做的事,用 AI 试试能走多远。你会惊讶于能做到什么。
---
用 Ian 的话收个尾:"不要限制自己。想象任何你想做的事,用 AI 试试能走多远,你会让世界变得更好。"
这是完全不同的范式——不是训练更贵的模型,而是优化"如何使用模型"。脚手架让任何 Agent 公司都能站在基础模型的肩膀上,而且自动进化。
YouTube 链接:
https://www.youtube.com/watch?v=UPGB-hsAoVY