每个团队维护自己的eval。Notion的eval分三层:CI里的单元测试/回归测试、产品级launch quality(需80-90%通过率)、以及"前沿/天花板eval"(主动只设30%通过率)。他们跟前沿实验室合作,当eval饱和时,主动设计更难的"Notion's Last Exam"。
6.
Model Behavior Engineer(MBE)是一个全新职业路径。不需要工程背景,需要语言学、产品感、对模型行为的直觉。从最初在Google Sheets里手动标记"好/坏"开始,现在用coding agent自己写eval、自己调试。Simon一年半前还在白板上教他们怎么用GitHub。