0228-7人团队超越OpenAI的脚手架秘密

用户9970

用户3733

5月9日修改

播客名称：Y Combinator Lightcone

嘉宾：Ian Fischer

Ian Fischer 是 Poetic 的联合创始人兼 CEO，前 Google DeepMind 研究员，团队仅 7 人。他们在 ARC-AGI 和 Humanity's Last Exam 基准上超越了 OpenAI 和 Anthropic。​

这期播客总共录了约 20 分钟，Ian 谈到了 12 个有趣的观点：

1、Poetic 做的是递归自我改进系统——让 AI 自己优化自己。这被认为是 AI 的"圣杯"，但他们用远低于训练新模型的成本做到了（不到 10 万美元 vs 数百亿美元）。​

2、Fine-tuning 是"燃烧的钱"。初创公司花数百万微调后，新一代基础模型发布，一切归零。你永远追不上 Anthropic 和 OpenAI 的发布节奏。​

3、他们的系统叫"脚手架"（Stilts）——坐在基础模型上面的推理系统。当你站在脚手架上，任何新模型发布，你都能变得比它更高。​

4、ARC-AGI V2 发布时，Google Gemini Deep Think 以 45% 领先。两天后 Poetic 用 Gemini 3 Pro（更便宜的模型）+ 脚手架达到 54%，成本只有对手一半。​

5、最近他们在 Humanity's Last Exam（2500 道各领域 PhD 级别难题）达到 55%，超越 Anthropic Claude Opus 4.6 的 53.1%。而且成本不到 10 万美元。​

6、团队只有 7 人——全是研究科学家和研究工程师。这是典型的小团队 AGI 研究模式。​

7、传统 ML 范式是你必须非常了解数据集，但他们在把这个过程外包给 AI——让 AI 自己找出失败模式，自己构建推理策略。​

8、他们的系统不只是优化 prompts，还包括推理策略、代码结构、上下文填充、总结方式——是整个"推理系统"的优化。​

9、他们发表过一篇论文，手动优化 Gemini 1.5 Flash 从 5% 提升到 95%——关键是加入推理策略（reasoning strategies），不是更好的 prompt。​

10、对于初创公司，脚手架范式意味着：你的 agent 不再绑定某个特定模型，可以随着基础模型进化而自动进化。​

11、他对工程师的建议：每天都要用 AI 做事，push 自己找到模型的能力边界。8 个月前用 GPT-5 写 iOS app 已很简单，现在更容易。​

12、这代表着与 RL（强化学习）完全不同的新范式——不是训练新模型，而是优化"如何使用模型"。​

---

精华片段

断断续续看完这期 Poetic 的访谈，干货密度太高了。

Ian Fischer 之前在 Google DeepMind 做了十年机器学习研究，后来自己创业。之前做的是移动开发工具公司（被 Google 收购），后来决定转向 AI。​

这期的主题非常有意思：小团队如何用"脚手架"超越大公司的基础模型。​

---

#01 脚手架的诞生

主持人：什么是 Poetic？和 RL 有什么区别？

Ian： 我们做的是递归自我改进系统——让 AI 自己让自己变得更聪明。核心洞察是，我们可以比任何其他方式更快、更便宜地实现递归自我改进。​

其他方法都需要从零训练新 LLM，成本是数百亿美元、耗时几个月。而 Anthropic 或 OpenAI 下一版模型发布，你的成果就过时了。​

主持人： 这是初创公司最想要的东西。你刚说的 Bitter Lesson——如果没有 Poetic，你们会怎么做？​

Ian： 通常是：先收集数万条特定问题的数据，花大钱微调 frontier model。然后新模型发布，一切归零。你做的是重复烧钱。​

有了 Poetic，你得到的是一个"脚手架"——坐在模型上面的推理系统。当新模型发布，你的脚手架继续可用，性能提升更明显。成本还低得多。​

---

#02 超越 Gemini 和 Claude

主持人：你们在 ARC-AGI 的成绩真的很疯狂。

Ian： Gemini 3 Deep Think 发布时达到 45%，两天后我们用更便宜的 Gemini 3 Pro + 脚手架达到 54%。成本只有 32 美元/题 vs 70 美元。​

主持人： Humanity's Last Exam 呢？

Ian： 2500 道各领域 PhD 级别难题。之前 Anthropic Claude Opus 4.6 是 53.1%。我们达到 55%。关键是成本不到 10 万美元——而每次基础模型训练都是数百亿。​

---

#03 7人团队的秘诀

主持人：你们只有 7 个人？

Ian：对，7 个研究科学家和研究工程师。

主持人： 这真的很反直觉。现在 AI 圈都在堆算力，你们用小团队做到这个？​

Ian： 我们把过去需要人来做的工作——优化 evals、调整 prompts、上下文工程——全部自动化了。系统自己找出失败模式，自己构建推理策略。​

我们不手动查看数据——是 AI 在看数据，然后告诉我们需要什么。​

---

#04 对工程师的建议

Ian： 我的建议就是——每天都要用 AI 做事。我去年周末用 GPT-5 帮我写了一个 iOS app，十年没做这个了。八个月前的事，现在已经更容易了。​

不要设限——想象任何你想做的事，用 AI 试试能走多远。你会惊讶于能做到什么。​

---

用 Ian 的话收个尾："不要限制自己。想象任何你想做的事，用 AI 试试能走多远，你会让世界变得更好。"​

这是完全不同的范式——不是训练更贵的模型，而是优化"如何使用模型"。脚手架让任何 Agent 公司都能站在基础模型的肩膀上，而且自动进化。​

0228-7人团队超越OpenAI的脚手架秘密​