姚顺宇访谈:AI 时代的浪、组织与反英雄叙事
这篇文章不是单纯的人物稿,而是一次关于前沿 AI 研究现场的口述切片:从理论物理转向 AI、Anthropic 对 coding 与大规模强化学习的押注、Google DeepMind 的工程化优势、长任务与 ML coding 的方向,以及姚顺宇对个人英雄主义的强烈怀疑。
核心结论
文章最重要的观点,是把前沿 AI 研究从“少数天才发明范式”的叙事,拉回到一套更朴素的系统工程叙事:客观反馈、稳定训练环境、组织执行力、基础设施、产品触感,以及能把大想法拆成小步骤的人。
他反对神话个人
姚顺宇在访谈中反复削弱个人贡献叙事。他把自己在 Claude 3.7、Gemini 相关项目中的位置描述为“加入了重要项目并参与其中”,而不是某个模型的英雄作者。他的判断是:前沿模型已经进入集体主义阶段,个人更多是在浪上冲浪。
他强调“反馈信号”胜过玄学
在后训练、强化学习和 coding 能力提升上,文章反复出现一个标准:找到足够清晰、客观、可学习的环境与反馈。技术路线不是靠 tips,而是靠合适任务、数据、评估、基础设施和持续迭代。
人物线:半路转向 AI 的理论物理背景
姚顺宇本科在清华学物理,博士在斯坦福做理论高能物理,短暂进入伯克利博士后后转向 Anthropic,后来加入 Google DeepMind。文章开头还特意区分了硅谷 AI 圈里两位同名近似的 Yao Shunyu/Yao Shunyu。
他认为物理带来的不是直接技能,而是思考习惯:想清楚、读得深、系统地验证问题。
他对高能理论的评价很清醒:难度高、个人成长大,但外部可验证性弱,客观反馈不足。
离开 Anthropic 时,他没有把“领导一个项目”放在首位,而是想去学习更多不同东西。
科学观:黑盒、Scaling Law 与 18 世纪物理
访谈里最清晰的科学观,是他不接受“AI 是黑盒,所以无法研究”的简单说法。物理也不是对世界底层动力学的完全透明化;很多科学理解本来就是在某个尺度上建立有效描述。
| 主题 | 文章观点 | 我的整理 |
|---|---|---|
| 黑盒 | 所有系统在足够底层都可以被视为黑盒;问题是我们能在什么层次上建立规律。 | 这把 AI interpretability 从“全知/全无知”的二分拉回连续谱。 |
| Scaling Law | 它是经验规律,但经验规律和科学规律之间边界并不绝对。 | 它像热力学早期规律:未必解释微观机制,却能指导行动。 |
| 理论与实验 | 当前 AI 更像早期物理:理论和实验尚未分工彻底,研究者可以提出想法并用训练实验验证。 | 这解释了为什么 AI 研究需要既会想也会动手。 |
| 涌现叙事 | 他对“智能涌现”这个表达保持怀疑,认为它容易把连续变化包装成神秘事件。 | 更好的表述是能力随规模、数据、训练和环境发生可测变化。 |
Anthropic:coding 押注、后训练与 top-down
姚顺宇加入 Anthropic 时,团队重点是用大尺度强化学习提升 coding 能力。文章把 Claude 3.7 描述为 Anthropic 后训练的一个分水岭:此前后训练更像修补,之后开始被系统性放大。
Claude 3 时代外部反馈显示其 coding 可能强于 GPT-4,Anthropic 很快捕捉市场信号并集中资源。
核心不是某个技巧,而是找到客观反馈强、数据干净、模型可学习的环境,让 RL 稳定进行。
Claude 3.7 从研究到发布花了数月,访谈中反复强调基础设施耗时且关键。
Anthropic 的组织机制
文章把 Anthropic 的强项描述为反应快、执行力强、内部信息流通、小团队互相信任。更关键的是,技术决策者同时也是公司决策者,这让 top-down 押注有合法性和执行力。
Google DeepMind:ML coding、长任务与工程化优势
加入 Google DeepMind 后,姚顺宇的工作重心转向 ML coding 和 long-horizon。前者指向“AI 训练 AI”的闭环,后者关注有限上下文下如何完成更长周期任务。
让模型参与模型训练
文章中的 ML coding,不只是让模型写普通业务代码,而是让模型进入机器学习研发流程:选择数据、构造反馈、改进实验和基础设施。难点在于细节和评估,而不是口号。
有限上下文,接近无限使用
他不认为简单拉长单段训练上下文是现实答案。更接近人的方式,是选择性遗忘、检索和保留与当前任务相关的信息,从而在有限窗口里做长期任务。
为什么说 OpenAI 刺激了 Google
文章中一个组织判断是:OpenAI 的外部压力迫使 Google 更快、更认真地整合自身能力。Google 的舒适区在于确定性工程项目:目标清晰、节点明确、评估框架稳定时,它的工程管理能力会发挥出来。预训练在他看来已经更接近这种可工程化范式。
组织判断:startup 与大公司的不同打法
| 维度 | Anthropic 式 startup | Google 式大公司 |
|---|---|---|
| 优势 | 快速反应,集中下注,组织冗余少。 | 储备全面,工程管理强,确定性任务推进稳。 |
| 风险 | 押错方向代价高;组织变大后文化会被稀释。 | 个人 scope 可能受限;bottom-up 组织下方向收敛较慢。 |
| 适配任务 | 不确定但信号强的新方向,比如 coding/RL 突破窗口。 | 范式逐渐稳定的系统工程,比如预训练规模化。 |
| 关键资源 | 技术 leader 的公信力与共同经历。 | 评估框架、项目管理和跨团队工程能力。 |
他对 neo labs 的看法偏悲观:少数有真能力的团队会持续交付,但很多新实验室可能没有清晰方向。背后的判断还是同一条:AI 已经过了单靠明星叙事融资和吸引注意力的阶段,真正困难的是持续把事情做出来。
逐段精读笔记
| 段落 | 主题 | 笔记 |
|---|---|---|
| 引言 | 人物定位 | 文章先制造反差:他言辞锋利,但对自身贡献非常克制。这种反差构成全文张力。 |
| 01 | 两个姚顺宇 | 用同名人物切入,交代他的物理背景、AI 转向和与姚顺雨的关系,同时点出他选择 Gemini 的动机是学习。 |
| 02 | 物理训练 | 物理没有直接转化成 AI 工具技能,但训练了深读、系统性和对验证标准的敏感。 |
| 03 | AI 科学观 | AI 不是完全不可理解;Scaling Law 这类经验规律也算理解的一部分。AI 研究像早期物理,理论与实验尚未分家。 |
| 04 | Anthropic 组织 | Anthropic 的 top-down 能成立,是因为技术领导者同时有公司权力和技术公信力;共同经历带来信任。 |
| 05 | 后训练与 coding | Claude 3.7 的背后是 coding/RL 的系统押注。核心在于找到反馈清晰的环境,而非神秘技巧。 |
| 06 | 技术 tips 的误区 | 他淡化个人贡献和单点技巧,强调从想法到可执行步骤之间的工程落地;反感只讲大道理。 |
| 07 | 离开 Anthropic | 离开原因包括文化冲击、对部分政治表达不认同,以及想学习多模态、底层工程等更广领域。 |
| 08 | Google DeepMind | 核心是 ML coding 与 long-horizon。Google 的优势在范式明确后的工程化推进。 |
| 09 | 反英雄叙事 | 他认为前沿 AI 的个人英雄主义时代已经结束。行业有客观评价,资历崇拜不该压过自洽判断。 |
| 10 | 闲书与性格尾声 | 尾声弱化宏大叙事,用读书、食物和地点回到一个更日常的人。 |
可迁移启发
前沿能力往往来自任务定义、反馈设计、数据、评估和基础设施的组合,不是单个秘诀。
一个反馈清晰的环境,会让模型学习更稳定;这对 agent、coding、RL 任务尤其重要。
宏大判断只有变成一连串可验证、可执行的小步骤,才真正进入工程。
同样的研究方向,在 startup 和大公司里需要不同的决策机制。
选择性记忆、检索与上下文管理,可能比单纯拉长训练长度更现实。
个人仍重要,但更像在正确浪潮中做可靠执行者,而不是单独创造时代。
风险、疑点与阅读边界
- 文章是访谈节选,作者明确说明文字只占完整内容一部分,因此上下文可能不完整。
- 技术细节涉及企业机密,很多关键实现没有展开,不能把本文当作 Claude 或 Gemini 的技术白皮书。
- 涉及公司动态与人物判断的部分,是受访者视角与采访现场表达,不等于独立事实核查。
- 文章称录制于 2026 年 3 月,AI 行业变化快,组织和产品格局可能已有新变化。
来源
本页基于原文正文抽取结果整理,未复刻全文,只做结构化笔记和分析。抓取结果中未发现有效参考资料外链;主要外链为微信图片资源。
- 微信公众号原文:《独家对话姚顺宇:请允许我小疯一下》
- 抽取方式:本地微信文章抽取脚本与 agent-fetch 交叉获取正文。
- 访问日期:2026-05-11。