仔细听了一下张小珺对姚顺宇播客的访谈，收获非常大。

两位清华同届校友在硅谷AI浪潮中的双子星象征，寓意AI时代的机遇与选择

4 个小时的时长，放在现在来说能好好听完的人想必也不多。

于是我就把重点给大家罗列了出来。

不得不说这种播客的方式，虽然时间长，但确实能学到很多东西，这也是老外很喜欢的一种形式。

先说一个背景。

硅谷 AI 圈有两位清华同届毕业、英文都叫 Shunyu Yao 的研究者，中文媒体经常混淆：

两位同名清华校友的双子星隐喻，展现殊途同归的人生轨迹

一个是姚顺雨，做计算机科学的，现在在 OpenAI 当首席 AI 科学家。

另一个是姚顺宇，本期嘉宾，物理出身，现在在 Google DeepMind。

他俩清华本科同届——一个在姚班，一个在基科班。研究生一个去了 Princeton，一个去了 Stanford。

姚顺宇自己在节目里说了一句很有意思的话：“很奇怪，全世界都觉得 Stanford 是 CS 圣地，Princeton 才是物理圣地，我们俩恰好反着来。”

他俩在硅谷的时候每几周见一次，主要就是瞎玩——散步、吃饭、打扑克。

关于 AI 的“下半场”这个说法，姚顺宇说他一直不太懂什么意思。

他自己的定义是：“大家开始不再那么担心一件事，AI 能不能做到这个问题本身是不是定义明确，这是最大的变化。”

一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力。现在？Gemini、OpenAI、Anthropic 三家没谁真担心“赶不上进度”了。

难的是想清楚到底该做什么。

模型同质化了，商品化了，纸面上差距缩到 1-2 个百分点。“大部分是噪声，不是信号。”

真正的差异只在实际用户体验里：Claude 工具使用最强，Codex 最近追平，Gemini 日常推理更好，智能体编码还在追赶。

他有一个非常反主流的判断，我印象很深。

“2026 年第一季度，模型改进速度完全没有放缓。”

他拒绝用 benchmark 增长来衡量：“benchmark 是定义在 [0, 100] 里的，越接近 100 增长当然越慢，但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。”

为什么有人觉得撞墙了？他给了三种可能，并直指第三条最常见：

第一种，觉得这个范式本身到头了——可能，但只是猜测。

第二种，觉得数据等条件不再满足。

第三种：“他们自己的工作里有 bug，但没意识到——我观察到绝大多数'撞墙'的人属于这一类。”

修一个 bug 带来的进步，往往比花哨的技巧多得多。

“几个月前很多人说 Scaling Law 撞墙了，我的经验是没撞墙，接下来四个月也看不到到头的迹象。”

关于编程领域为什么这一年半发展最快，他的解释很有结构性：

奖励信号定义清晰：SWE 任务天然可测，输入输出一匹配就是成功。

数据基座天然存在：GitHub 几十年沉淀了海量高质量代码，构建环境非常方便。

还有一个独特性：好程序员写的代码风格高度相似——简洁、结构清晰、易扩展、抽象合理。所以不需要像社交或游戏那样去适应每个用户的口味，这大大简化了产品形态。

他自己的代码产出 90% 以上由模型生成（保守估计，实际可能 99%）。

但他花大量时间 review 代码。“AI 辅助之后，最重要的变成了如何设计它、如何给它合适的 context。”

被问到谷歌允不允许用 Claude Code，他说：“你这个问题差点让我丢工作了——谷歌不允许用 Claude Code。”（笑）

工作效率提升 20 到 50 倍，但他的工作时间反而更长了：“因为能试的想法更多了，以前要等同事几小时才能搞懂一个文件，现在问 Claude 或 Gemini 5 秒就行。”

对程序员的未来，他的判断是：

“AI 最终会取代程序员，但是渐进过程。AI 是高度集中化的技术，让少数人更强，让大多数人失去独特价值。传统软件工程的终局可能是'千分之一的人做完所有人的活，拿 100 倍的工资'。”

“千分之一只是个比喻数字，也可能是万分之一或十万分之一……别太悲观，我是著名的悲观主义者。”

千分之一比喻的视觉化，极少数精英程序员在代码海洋中的灯塔形象

关于 Wrapper 产品（就是套壳那些），他的判断很直接：

“圈外人比圈内人紧张。”

OpenClaw 没有证明什么新东西——Claude 4.5 Opus 发布时工具使用能力已经领先 OpenAI 和 Gemini 3，只是当时没人包装成产品。

Manus 被 Meta 收购、OpenClaw 被 OpenAI 收购，这说明“包装层”目前还无法摆脱模型公司的控制——逃逸速度不够。

Wrapper 要活下来只有两条路：

“成长够快”——Cursor 的打法。在模型公司反应过来前占据足够用户心智，并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系“已经到了非常微妙的阶段”，Cursor 在训自己的 Composer，双方从亲密伙伴变成竞争对手。

“市场小到模型公司看不上”——Midjourney 的打法。“有损 Gemini 尊严的”那种细分市场。

关于中国公司被指控“蒸馏”美国模型这件事，他把蒸馏分成了两种：

“硬蒸”——直接拿 Claude 生成的 token 去强制训练自己的模型。“商业上不道德，智商上相当蠢——等于承认你连自己要做什么都不知道，只能模仿别人，把 benchmark 数字做得好看些。”

“软蒸”——在自己的数据 pipeline 里用其他模型做助手，或者用其他模型当 evaluator。“商业上灰色，但技术上其实很有意思——中国实验室可能是 multi-agent 训练领域的先驱：如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统，这才是真正的 multi-agent。”

点名（后期应消音处理）：硬蒸某家“之前可能做过，后来逐渐转软蒸”。“蒸得最少的是字节跳动，它的模型仍然非常独特。”

关于豆包：“豆包肯定不如 Gemini 或 Claude 聪明。但豆包的语音生成真的是世界最好的（直白说就是最好，委婉点说是之一）。”

美国公司为什么不做这种方向？“数据问题加用户群差异。美国人更关注生产力，中国人才有那么多'人生问题'要问豆包。我自己生活很无聊，没什么有趣的人生问题——日常技术问题问 Gemini 就好。”（笑）

关于机器人，他说春晚看过那个演出，还去亚马逊搜过人形机器人价格，“比我想的便宜多了”，反映了中国硬件产业链的优势。

但软件侧：“机器人模型还处在特征工程时代——给定场景，针对这个场景做 RL 优化，每个人都知道怎么做，但泛化能力不强。”

“是否具备泛化能力，实际上是 AI 很多方向的分水岭。”

确定性单一场景做好不难，十几年前就能做到。语言模型是在 Transformer 之后才越过这个阈值——“在一个层面训练就能全面提升所有能力”。

机器人目前连 GPT-1 阶段都没到，和多模态生成一样，都还没找到 scale 的办法。

聊到他在 Anthropic 训练 Claude 3.7 和 4.5 的经历，信息量很大。

他 2024 年 8 到 9 月通过前同事联系上 Anthropic。同期也联系了 OpenAI 和 DeepMind——DeepMind 当时太慢了，最后是 Anthropic 谈成。

面试前他把能自学的课程都过了一遍，手写实现了 Andrej Karpathy 的 nanoGPT。

有两个团队接洽他——评估和强化学习。他选了更不确定的 RL 方向。

当时 Anthropic 全公司 700 到 800 人，他加入的“Horizon”大团队只有 10 到 11 人，几乎就是整个后来的 RL 团队前身。

对 Anthropic 的第一印象：“执行力非常强，相对自上而下的公司。人与人之间没有隐瞒，氛围非常好——因为规模小大家都认识。”

Anthropic公司氛围的象征，透明协作的环形工作空间

Anthropic 为什么能自上而下？因为技术决策人就是公司联合创始人，而且 Dario 与他们互信足够。“其他公司做不到——Ilya 在的时候 OpenAI 或许能，但他后来莫名其妙丧失了决策权，然后就走了。”

Claude 3.5 → 3.6 → 3.7 的真相：“Claude 3.5 new 被外界叫 3.6，是因为 Anthropic 早期没产品能力——两个模型都叫一个名字（3.5），后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5 new 等于 3.6 → 3.7。”

Claude 3.7 是 Anthropic 后训练的分水岭。之前 post-training 是“打补丁”模式；3.7 之后才真正大规模 RL。

“在我加入时，大家已经知道要做大规模 RL，但不知道具体怎么做。”2024 年 8 到 9 月，o1 还没发布，只知道 OpenAI 有个神秘项目叫 Strawberry。

真正的秘诀（他能公开谈的部分）：“把简单的事做得比所有人都干净。”

他离开时 Anthropic 已经接近 2000 人（比他加入时翻倍以上）。“我赶上了小公司的尾声”——三四个月后公司突然变大，文化开始混乱。

离职原因：想学不一样的东西。“Anthropic 非常聚焦，只做语言模型相关，不做多模态生成、不太做底层工程和 infra——我想学这些。”

约 40% 原因：不认同 Dario 的反华立场。“作为 CEO 个人他怎么想都可以，但把这种观点推到如此极端，是非常情绪化的反应。”

40% 不是主因，但也不是无关紧要。（笑）

关于“英雄主义已经过去了”这个观点，他讲得很直接：

“个人英雄主义在语言模型领域可能已经过去了——也就是 Transformer 那个时刻之后。”

“现在大家都是冲浪的人，本质上是那个浪，而不是你那个冲浪的人。”

“没有英雄，有时候甚至觉得旧时代的英雄有点蠢。”

“我对任何模型的贡献，我的 statement 永远是：我自己对那件事没那么重要；更多是我很幸运，有机会在那时候加入了一个重要项目，做了一些事。”

对 AI Safety 的批评非常犀利：

Anthropic 成立的初衷是 AI safety，但又要训练前沿模型。Anthropic 自己的解释是“必须做最强的模型才有话语权推动 safety 议程”。

“这个想法非常天真——现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型，没人能阻止任何事。”

真正的机制类比是核武器：多方持有、互相威慑。“靠一家公司自我立法去规制是不可控的——它只能自我规制，但自我规制等于没规制。”

转到他在 Google DeepMind 训练 Gemini 3。

加入的理由很反直觉——反对那种“研究员离开大厂加入小厂”的惯性，反其道而行，因为当时他想要“学更多、更广”。

“如果你真想把某个想法塞进最终产品模型里，谷歌可能是非常烂的地方。但如果你要的是研究自由、广阔视野，世界上找不到比 Gemini 更强的第二名。”

加入时点（2025 年 9 月底）已经看好 Gemini——Gemini 2.5 那代让业内意识到“Google 正在搞明白”。

Gemini 3 和 Nano Banana 两次叠加才是真正的转折点：Nano Banana 把很多新用户引到 Gemini App，Gemini 3 把他们留住。“只有 Gemini 3 不够——市场份额低于 10% 时，模型再好传播也慢。”

Gemini 3和Nano Banana转折的象征，巨浪中的灯塔

“从局外人角度看，是 OpenAI 救了谷歌的命。”如果 ChatGPT 当时真的完全吞掉了搜索，谷歌就完蛋了。但 OpenAI 做到了“让谷歌意识到重要性，但没做到吞掉搜索”，让谷歌得以反扑。

Chatbot 为什么没完全吞掉搜索？搜索有大量“非常蠢”的需求——“我就搜一下在哪买米、哪里点好，不想等聊天机器人转半天最后给个链接还要再点一次。”

“聊天机器人凭什么就是终极形态？过了这么多年，居然还只有一个聊天框，我真的觉得很蠢。”

关于组织，他有一段话我非常认同：

“系统稳固加个人英雄不闪耀”与“允许个人英雄闪耀但系统脆弱”的 trade-off。

他倾向前者——“系统不稳固的一个例子就是 OpenAI：一个人走，整个结构就可能塌。”

“研究员必须为整体考虑，不然不是好研究员。在学术界是'一人吃饱全家不愁'；在公司里你要对公司负责——这是两种完全不同的心态。”

他承认：“我可能就是拉不下脸——既然签了合约，我觉得不按合约做没什么道理。”

关于他个人的成长经历，信息量也很大。

出生在宁夏大武口，小学到高中在上海。性格自述：“我总是喜欢做我不擅长的事情。”

关键人生选择——高中择校：他本可以被上海四大名校的普通班录取，但为了进“稍差一些”的格致中学竞赛班而放弃——“赤脚的不怕穿鞋的，值得一试。”

参加物理竞赛未能进国家集训队，高考也考不上清华。但命运转折：高三清华夏令营期间，听说清华对北京学生有独立招生，他当场给清华招生办老师发短信——“你给北京学生考试，凭什么不让上海学生也考？”——争取到考试机会，考过后签了“第一档降分”协议，最终录取清华。

人生最大的经验：“大胆一些。如果你不争取，就永远得不到。即使你争取，也未必能得到。但你不争取，就肯定得不到。”

对父母的评价：“中国家长能做到让孩子'讨论'已经不错了。我一般只是通知他们。我父母最好的地方是，当他们无法理解我在做什么时，他们选择不干涉。”

聊到量子物理和非厄米系统，这部分很技术但很重要。

他本科的导师是王中，博士导师是 Douglas Stanford 和 Stephen Shenker，都是 Stanford 理论物理的顶级人物。

本科期间他和王中合作提出了非厄米系统的拓扑能带理论新方法——核心发现是：在非厄米系统里，厄米系统的基本范式布洛赫波假设完全崩溃了，非厄米系统的能量本征态全部会堆积在系统边界。这就是后来广为人知的 Non-Hermitian Skin Effect。

为什么没继续做下去？

“范式转变很难 catch，已经 catch 了一次就不想再 catch 同一次。这是人性的弱点——我总想挑战自己不知道的事。”

博士阶段转去搞理论高能物理，这两个方向“几乎没有任何联系”。

现在回头看：“如果当时继续做下去，那工作会成为这个方向上最重要的工作，我会更有名、更多引用、更好的教职；但科研生涯会变得不那么兴奋。”

对“挑战难事”的反思：“说得好听点是挑战自己，说得难听点就是自虐。但如果是为了获得信息、丰富经验和能力，那值得。”

他有一个核心命题：“AI 本质是简单的。”（他强调这是 statement 不是 conclusion）

解释：因为你可以做实验。相比物理——能量尺度限制了实验数据——AI 不受这种约束。想做什么实验都能做，只是需要时间扩算力、准备 infra，但没有根本性困难。

“AI 不会给人撞墙的感觉，不是因为方法穷尽了，而是因为想法太多了，挨个试不过来。”

未来 6 到 12 个月 AI 会开始自己做实验——不是只写代码，而是运行实验、分析结果、提出新假设、设计新代码、跑新实验，这条链会逐渐闭合。

AI自主实验的循环链条，机器人科学家在实验室中

最后，关于他给年轻人的建议。

“纯语言模型方向，蓝海已经不是蓝海了，我赶上了末班车。”

但 AI 是非常大的领域——多模态生成、机器人、用 AI 解决实际科学问题，都还是蓝海。

“对足够年轻的人，做现在最热的事未必是对的；做没人做的事，可能是更好的选择。”

关于自己的未来，他说不会在谷歌长留。“如此公开地表达这一点——我觉得可能不会。”

“我还是会去挑战自己，需要折磨自己，只是得先找到值得折磨自己的东西。”

最后一问：“关键的赌注是什么？”

“Long horizon。（长时程）”

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。