微信公众号长文精读笔记

姚顺宇访谈:AI 时代的浪、组织与反英雄叙事

这篇文章不是单纯的人物稿,而是一次关于前沿 AI 研究现场的口述切片:从理论物理转向 AI、Anthropic 对 coding 与大规模强化学习的押注、Google DeepMind 的工程化优势、长任务与 ML coding 的方向,以及姚顺宇对个人英雄主义的强烈怀疑。

原文标题独家对话姚顺宇:请允许我小疯一下
作者 / 账号张小珺 / 语言即世界 language is world
抓取时间2026-05-11 Asia/Shanghai
正文规模约 28,573 字;文字节选约占完整播客 1/3

核心结论

文章最重要的观点,是把前沿 AI 研究从“少数天才发明范式”的叙事,拉回到一套更朴素的系统工程叙事:客观反馈、稳定训练环境、组织执行力、基础设施、产品触感,以及能把大想法拆成小步骤的人。

第一层

他反对神话个人

姚顺宇在访谈中反复削弱个人贡献叙事。他把自己在 Claude 3.7、Gemini 相关项目中的位置描述为“加入了重要项目并参与其中”,而不是某个模型的英雄作者。他的判断是:前沿模型已经进入集体主义阶段,个人更多是在浪上冲浪。

第二层

他强调“反馈信号”胜过玄学

在后训练、强化学习和 coding 能力提升上,文章反复出现一个标准:找到足够清晰、客观、可学习的环境与反馈。技术路线不是靠 tips,而是靠合适任务、数据、评估、基础设施和持续迭代。

物理训练深读、系统性、刨根问底,但具体工具技能迁移有限。
AI 科学观黑盒是相对概念;经验规律仍然是理解的一部分。
Anthropic小组织、强执行、top-down,押注 coding/RL。
Google大组织、工程管理、预训练进入强项区。
反英雄客观评价压过资历崇拜,重要的是靠谱和负责。
精读后的总判断:这篇访谈的价值不在于泄露技术细节,而在于给出一个前沿 AI 研究者对“技术如何进步、组织如何下注、个人如何定位”的内部视角。

人物线:半路转向 AI 的理论物理背景

姚顺宇本科在清华学物理,博士在斯坦福做理论高能物理,短暂进入伯克利博士后后转向 Anthropic,后来加入 Google DeepMind。文章开头还特意区分了硅谷 AI 圈里两位同名近似的 Yao Shunyu/Yao Shunyu。

从物理到 AI

他认为物理带来的不是直接技能,而是思考习惯:想清楚、读得深、系统地验证问题。

转行的动机

他对高能理论的评价很清醒:难度高、个人成长大,但外部可验证性弱,客观反馈不足。

学习优先

离开 Anthropic 时,他没有把“领导一个项目”放在首位,而是想去学习更多不同东西。

科学观:黑盒、Scaling Law 与 18 世纪物理

访谈里最清晰的科学观,是他不接受“AI 是黑盒,所以无法研究”的简单说法。物理也不是对世界底层动力学的完全透明化;很多科学理解本来就是在某个尺度上建立有效描述。

主题文章观点我的整理
黑盒所有系统在足够底层都可以被视为黑盒;问题是我们能在什么层次上建立规律。这把 AI interpretability 从“全知/全无知”的二分拉回连续谱。
Scaling Law它是经验规律,但经验规律和科学规律之间边界并不绝对。它像热力学早期规律:未必解释微观机制,却能指导行动。
理论与实验当前 AI 更像早期物理:理论和实验尚未分工彻底,研究者可以提出想法并用训练实验验证。这解释了为什么 AI 研究需要既会想也会动手。
涌现叙事他对“智能涌现”这个表达保持怀疑,认为它容易把连续变化包装成神秘事件。更好的表述是能力随规模、数据、训练和环境发生可测变化。

Anthropic:coding 押注、后训练与 top-down

姚顺宇加入 Anthropic 时,团队重点是用大尺度强化学习提升 coding 能力。文章把 Claude 3.7 描述为 Anthropic 后训练的一个分水岭:此前后训练更像修补,之后开始被系统性放大。

押注来源

Claude 3 时代外部反馈显示其 coding 可能强于 GPT-4,Anthropic 很快捕捉市场信号并集中资源。

后训练放大

核心不是某个技巧,而是找到客观反馈强、数据干净、模型可学习的环境,让 RL 稳定进行。

基础设施

Claude 3.7 从研究到发布花了数月,访谈中反复强调基础设施耗时且关键。

Anthropic 的组织机制

文章把 Anthropic 的强项描述为反应快、执行力强、内部信息流通、小团队互相信任。更关键的是,技术决策者同时也是公司决策者,这让 top-down 押注有合法性和执行力。

这部分最有价值的不是“某公司好坏”的八卦,而是一个组织设计原则:当技术方向高度不确定时,能否快速下注,取决于技术公信力、公司权力结构和共同经历积累出的信任。

Google DeepMind:ML coding、长任务与工程化优势

加入 Google DeepMind 后,姚顺宇的工作重心转向 ML coding 和 long-horizon。前者指向“AI 训练 AI”的闭环,后者关注有限上下文下如何完成更长周期任务。

ML coding

让模型参与模型训练

文章中的 ML coding,不只是让模型写普通业务代码,而是让模型进入机器学习研发流程:选择数据、构造反馈、改进实验和基础设施。难点在于细节和评估,而不是口号。

Long horizon

有限上下文,接近无限使用

他不认为简单拉长单段训练上下文是现实答案。更接近人的方式,是选择性遗忘、检索和保留与当前任务相关的信息,从而在有限窗口里做长期任务。

为什么说 OpenAI 刺激了 Google

文章中一个组织判断是:OpenAI 的外部压力迫使 Google 更快、更认真地整合自身能力。Google 的舒适区在于确定性工程项目:目标清晰、节点明确、评估框架稳定时,它的工程管理能力会发挥出来。预训练在他看来已经更接近这种可工程化范式。

组织判断:startup 与大公司的不同打法

维度Anthropic 式 startupGoogle 式大公司
优势快速反应,集中下注,组织冗余少。储备全面,工程管理强,确定性任务推进稳。
风险押错方向代价高;组织变大后文化会被稀释。个人 scope 可能受限;bottom-up 组织下方向收敛较慢。
适配任务不确定但信号强的新方向,比如 coding/RL 突破窗口。范式逐渐稳定的系统工程,比如预训练规模化。
关键资源技术 leader 的公信力与共同经历。评估框架、项目管理和跨团队工程能力。

他对 neo labs 的看法偏悲观:少数有真能力的团队会持续交付,但很多新实验室可能没有清晰方向。背后的判断还是同一条:AI 已经过了单靠明星叙事融资和吸引注意力的阶段,真正困难的是持续把事情做出来。

逐段精读笔记

段落主题笔记
引言人物定位文章先制造反差:他言辞锋利,但对自身贡献非常克制。这种反差构成全文张力。
01两个姚顺宇用同名人物切入,交代他的物理背景、AI 转向和与姚顺雨的关系,同时点出他选择 Gemini 的动机是学习。
02物理训练物理没有直接转化成 AI 工具技能,但训练了深读、系统性和对验证标准的敏感。
03AI 科学观AI 不是完全不可理解;Scaling Law 这类经验规律也算理解的一部分。AI 研究像早期物理,理论与实验尚未分家。
04Anthropic 组织Anthropic 的 top-down 能成立,是因为技术领导者同时有公司权力和技术公信力;共同经历带来信任。
05后训练与 codingClaude 3.7 的背后是 coding/RL 的系统押注。核心在于找到反馈清晰的环境,而非神秘技巧。
06技术 tips 的误区他淡化个人贡献和单点技巧,强调从想法到可执行步骤之间的工程落地;反感只讲大道理。
07离开 Anthropic离开原因包括文化冲击、对部分政治表达不认同,以及想学习多模态、底层工程等更广领域。
08Google DeepMind核心是 ML coding 与 long-horizon。Google 的优势在范式明确后的工程化推进。
09反英雄叙事他认为前沿 AI 的个人英雄主义时代已经结束。行业有客观评价,资历崇拜不该压过自洽判断。
10闲书与性格尾声尾声弱化宏大叙事,用读书、食物和地点回到一个更日常的人。

可迁移启发

不要迷信 tips

前沿能力往往来自任务定义、反馈设计、数据、评估和基础设施的组合,不是单个秘诀。

环境也是数据源

一个反馈清晰的环境,会让模型学习更稳定;这对 agent、coding、RL 任务尤其重要。

想法要拆小

宏大判断只有变成一连串可验证、可执行的小步骤,才真正进入工程。

组织结构会塑造技术

同样的研究方向,在 startup 和大公司里需要不同的决策机制。

长任务不等于无限上下文

选择性记忆、检索与上下文管理,可能比单纯拉长训练长度更现实。

反英雄不等于反个人

个人仍重要,但更像在正确浪潮中做可靠执行者,而不是单独创造时代。

风险、疑点与阅读边界

来源

本页基于原文正文抽取结果整理,未复刻全文,只做结构化笔记和分析。抓取结果中未发现有效参考资料外链;主要外链为微信图片资源。