← 返回文章列表
查看 ↗

仔细听了一下张小珺对姚顺宇播客的访谈,收获非常大。

两位清华同届校友在硅谷AI浪潮中的双子星象征,寓意AI时代的机遇与选择

4 个小时的时长,放在现在来说能好好听完的人想必也不多。

于是我就把重点给大家罗列了出来。

不得不说这种播客的方式,虽然时间长,但确实能学到很多东西,这也是老外很喜欢的一种形式。


先说一个背景。

硅谷 AI 圈有两位清华同届毕业、英文都叫 Shunyu Yao 的研究者,中文媒体经常混淆:

两位同名清华校友的双子星隐喻,展现殊途同归的人生轨迹

一个是姚顺雨,做计算机科学的,现在在 OpenAI 当首席 AI 科学家。

另一个是姚顺宇,本期嘉宾,物理出身,现在在 Google DeepMind。

他俩清华本科同届——一个在姚班,一个在基科班。研究生一个去了 Princeton,一个去了 Stanford。

姚顺宇自己在节目里说了一句很有意思的话:“很奇怪,全世界都觉得 Stanford 是 CS 圣地,Princeton 才是物理圣地,我们俩恰好反着来。”

他俩在硅谷的时候每几周见一次,主要就是瞎玩——散步、吃饭、打扑克。


关于 AI 的“下半场”这个说法,姚顺宇说他一直不太懂什么意思。

他自己的定义是:“大家开始不再那么担心一件事,AI 能不能做到这个问题本身是不是定义明确,这是最大的变化。”

一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力。现在?Gemini、OpenAI、Anthropic 三家没谁真担心“赶不上进度”了。

难的是想清楚到底该做什么。

模型同质化了,商品化了,纸面上差距缩到 1-2 个百分点。“大部分是噪声,不是信号。”

真正的差异只在实际用户体验里:Claude 工具使用最强,Codex 最近追平,Gemini 日常推理更好,智能体编码还在追赶。


他有一个非常反主流的判断,我印象很深。

“2026 年第一季度,模型改进速度完全没有放缓。”

他拒绝用 benchmark 增长来衡量:“benchmark 是定义在 [0, 100] 里的,越接近 100 增长当然越慢,但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。”

为什么有人觉得撞墙了?他给了三种可能,并直指第三条最常见:

第一种,觉得这个范式本身到头了——可能,但只是猜测。

第二种,觉得数据等条件不再满足。

第三种:“他们自己的工作里有 bug,但没意识到——我观察到绝大多数'撞墙'的人属于这一类。”

修一个 bug 带来的进步,往往比花哨的技巧多得多。

“几个月前很多人说 Scaling Law 撞墙了,我的经验是没撞墙,接下来四个月也看不到到头的迹象。”


关于编程领域为什么这一年半发展最快,他的解释很有结构性:

奖励信号定义清晰:SWE 任务天然可测,输入输出一匹配就是成功。

数据基座天然存在:GitHub 几十年沉淀了海量高质量代码,构建环境非常方便。

还有一个独特性:好程序员写的代码风格高度相似——简洁、结构清晰、易扩展、抽象合理。所以不需要像社交或游戏那样去适应每个用户的口味,这大大简化了产品形态。

他自己的代码产出 90% 以上由模型生成(保守估计,实际可能 99%)。

但他花大量时间 review 代码。“AI 辅助之后,最重要的变成了如何设计它、如何给它合适的 context。”

被问到谷歌允不允许用 Claude Code,他说:“你这个问题差点让我丢工作了——谷歌不允许用 Claude Code。”(笑)

工作效率提升 20 到 50 倍,但他的工作时间反而更长了:“因为能试的想法更多了,以前要等同事几小时才能搞懂一个文件,现在问 Claude 或 Gemini 5 秒就行。”

对程序员的未来,他的判断是:

“AI 最终会取代程序员,但是渐进过程。AI 是高度集中化的技术,让少数人更强,让大多数人失去独特价值。传统软件工程的终局可能是'千分之一的人做完所有人的活,拿 100 倍的工资'。”

“千分之一只是个比喻数字,也可能是万分之一或十万分之一……别太悲观,我是著名的悲观主义者。”

千分之一比喻的视觉化,极少数精英程序员在代码海洋中的灯塔形象


关于 Wrapper 产品(就是套壳那些),他的判断很直接:

“圈外人比圈内人紧张。”

OpenClaw 没有证明什么新东西——Claude 4.5 Opus 发布时工具使用能力已经领先 OpenAI 和 Gemini 3,只是当时没人包装成产品。

Manus 被 Meta 收购、OpenClaw 被 OpenAI 收购,这说明“包装层”目前还无法摆脱模型公司的控制——逃逸速度不够。

Wrapper 要活下来只有两条路:

“成长够快”——Cursor 的打法。在模型公司反应过来前占据足够用户心智,并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系“已经到了非常微妙的阶段”,Cursor 在训自己的 Composer,双方从亲密伙伴变成竞争对手。

“市场小到模型公司看不上”——Midjourney 的打法。“有损 Gemini 尊严的”那种细分市场。


关于中国公司被指控“蒸馏”美国模型这件事,他把蒸馏分成了两种:

“硬蒸”——直接拿 Claude 生成的 token 去强制训练自己的模型。“商业上不道德,智商上相当蠢——等于承认你连自己要做什么都不知道,只能模仿别人,把 benchmark 数字做得好看些。”

“软蒸”——在自己的数据 pipeline 里用其他模型做助手,或者用其他模型当 evaluator。“商业上灰色,但技术上其实很有意思——中国实验室可能是 multi-agent 训练领域的先驱:如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统,这才是真正的 multi-agent。”

点名(后期应消音处理):硬蒸某家“之前可能做过,后来逐渐转软蒸”。“蒸得最少的是字节跳动,它的模型仍然非常独特。”

关于豆包:“豆包肯定不如 Gemini 或 Claude 聪明。但豆包的语音生成真的是世界最好的(直白说就是最好,委婉点说是之一)。”

美国公司为什么不做这种方向?“数据问题加用户群差异。美国人更关注生产力,中国人才有那么多'人生问题'要问豆包。我自己生活很无聊,没什么有趣的人生问题——日常技术问题问 Gemini 就好。”(笑)


关于机器人,他说春晚看过那个演出,还去亚马逊搜过人形机器人价格,“比我想的便宜多了”,反映了中国硬件产业链的优势。

但软件侧:“机器人模型还处在特征工程时代——给定场景,针对这个场景做 RL 优化,每个人都知道怎么做,但泛化能力不强。”

“是否具备泛化能力,实际上是 AI 很多方向的分水岭。”

确定性单一场景做好不难,十几年前就能做到。语言模型是在 Transformer 之后才越过这个阈值——“在一个层面训练就能全面提升所有能力”。

机器人目前连 GPT-1 阶段都没到,和多模态生成一样,都还没找到 scale 的办法。


聊到他在 Anthropic 训练 Claude 3.7 和 4.5 的经历,信息量很大。

他 2024 年 8 到 9 月通过前同事联系上 Anthropic。同期也联系了 OpenAI 和 DeepMind——DeepMind 当时太慢了,最后是 Anthropic 谈成。

面试前他把能自学的课程都过了一遍,手写实现了 Andrej Karpathy 的 nanoGPT。

有两个团队接洽他——评估和强化学习。他选了更不确定的 RL 方向。

当时 Anthropic 全公司 700 到 800 人,他加入的“Horizon”大团队只有 10 到 11 人,几乎就是整个后来的 RL 团队前身。

对 Anthropic 的第一印象:“执行力非常强,相对自上而下的公司。人与人之间没有隐瞒,氛围非常好——因为规模小大家都认识。”

Anthropic公司氛围的象征,透明协作的环形工作空间

Anthropic 为什么能自上而下?因为技术决策人就是公司联合创始人,而且 Dario 与他们互信足够。“其他公司做不到——Ilya 在的时候 OpenAI 或许能,但他后来莫名其妙丧失了决策权,然后就走了。”

Claude 3.5 → 3.6 → 3.7 的真相:“Claude 3.5 new 被外界叫 3.6,是因为 Anthropic 早期没产品能力——两个模型都叫一个名字(3.5),后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5 new 等于 3.6 → 3.7。”

Claude 3.7 是 Anthropic 后训练的分水岭。之前 post-training 是“打补丁”模式;3.7 之后才真正大规模 RL。

“在我加入时,大家已经知道要做大规模 RL,但不知道具体怎么做。”2024 年 8 到 9 月,o1 还没发布,只知道 OpenAI 有个神秘项目叫 Strawberry。

真正的秘诀(他能公开谈的部分):“把简单的事做得比所有人都干净。”

他离开时 Anthropic 已经接近 2000 人(比他加入时翻倍以上)。“我赶上了小公司的尾声”——三四个月后公司突然变大,文化开始混乱。

离职原因:想学不一样的东西。“Anthropic 非常聚焦,只做语言模型相关,不做多模态生成、不太做底层工程和 infra——我想学这些。”

约 40% 原因:不认同 Dario 的反华立场。“作为 CEO 个人他怎么想都可以,但把这种观点推到如此极端,是非常情绪化的反应。”

40% 不是主因,但也不是无关紧要。(笑)


关于“英雄主义已经过去了”这个观点,他讲得很直接:

“个人英雄主义在语言模型领域可能已经过去了——也就是 Transformer 那个时刻之后。”

“现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。”

“没有英雄,有时候甚至觉得旧时代的英雄有点蠢。”

“我对任何模型的贡献,我的 statement 永远是:我自己对那件事没那么重要;更多是我很幸运,有机会在那时候加入了一个重要项目,做了一些事。”

对 AI Safety 的批评非常犀利:

Anthropic 成立的初衷是 AI safety,但又要训练前沿模型。Anthropic 自己的解释是“必须做最强的模型才有话语权推动 safety 议程”。

“这个想法非常天真——现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型,没人能阻止任何事。”

真正的机制类比是核武器:多方持有、互相威慑。“靠一家公司自我立法去规制是不可控的——它只能自我规制,但自我规制等于没规制。”


转到他在 Google DeepMind 训练 Gemini 3。

加入的理由很反直觉——反对那种“研究员离开大厂加入小厂”的惯性,反其道而行,因为当时他想要“学更多、更广”。

“如果你真想把某个想法塞进最终产品模型里,谷歌可能是非常烂的地方。但如果你要的是研究自由、广阔视野,世界上找不到比 Gemini 更强的第二名。”

加入时点(2025 年 9 月底)已经看好 Gemini——Gemini 2.5 那代让业内意识到“Google 正在搞明白”。

Gemini 3 和 Nano Banana 两次叠加才是真正的转折点:Nano Banana 把很多新用户引到 Gemini App,Gemini 3 把他们留住。“只有 Gemini 3 不够——市场份额低于 10% 时,模型再好传播也慢。”

Gemini 3和Nano Banana转折的象征,巨浪中的灯塔

“从局外人角度看,是 OpenAI 救了谷歌的命。”如果 ChatGPT 当时真的完全吞掉了搜索,谷歌就完蛋了。但 OpenAI 做到了“让谷歌意识到重要性,但没做到吞掉搜索”,让谷歌得以反扑。

Chatbot 为什么没完全吞掉搜索?搜索有大量“非常蠢”的需求——“我就搜一下在哪买米、哪里点好,不想等聊天机器人转半天最后给个链接还要再点一次。”

“聊天机器人凭什么就是终极形态?过了这么多年,居然还只有一个聊天框,我真的觉得很蠢。”


关于组织,他有一段话我非常认同:

“系统稳固加个人英雄不闪耀”与“允许个人英雄闪耀但系统脆弱”的 trade-off。

他倾向前者——“系统不稳固的一个例子就是 OpenAI:一个人走,整个结构就可能塌。”

“研究员必须为整体考虑,不然不是好研究员。在学术界是'一人吃饱全家不愁';在公司里你要对公司负责——这是两种完全不同的心态。”

他承认:“我可能就是拉不下脸——既然签了合约,我觉得不按合约做没什么道理。”


关于他个人的成长经历,信息量也很大。

出生在宁夏大武口,小学到高中在上海。性格自述:“我总是喜欢做我不擅长的事情。”

关键人生选择——高中择校:他本可以被上海四大名校的普通班录取,但为了进“稍差一些”的格致中学竞赛班而放弃——“赤脚的不怕穿鞋的,值得一试。”

参加物理竞赛未能进国家集训队,高考也考不上清华。但命运转折:高三清华夏令营期间,听说清华对北京学生有独立招生,他当场给清华招生办老师发短信——“你给北京学生考试,凭什么不让上海学生也考?”——争取到考试机会,考过后签了“第一档降分”协议,最终录取清华。

人生最大的经验:“大胆一些。如果你不争取,就永远得不到。即使你争取,也未必能得到。但你不争取,就肯定得不到。”

对父母的评价:“中国家长能做到让孩子'讨论'已经不错了。我一般只是通知他们。我父母最好的地方是,当他们无法理解我在做什么时,他们选择不干涉。”


聊到量子物理和非厄米系统,这部分很技术但很重要。

他本科的导师是王中,博士导师是 Douglas Stanford 和 Stephen Shenker,都是 Stanford 理论物理的顶级人物。

本科期间他和王中合作提出了非厄米系统的拓扑能带理论新方法——核心发现是:在非厄米系统里,厄米系统的基本范式布洛赫波假设完全崩溃了,非厄米系统的能量本征态全部会堆积在系统边界。这就是后来广为人知的 Non-Hermitian Skin Effect。

为什么没继续做下去?

“范式转变很难 catch,已经 catch 了一次就不想再 catch 同一次。这是人性的弱点——我总想挑战自己不知道的事。”

博士阶段转去搞理论高能物理,这两个方向“几乎没有任何联系”。

现在回头看:“如果当时继续做下去,那工作会成为这个方向上最重要的工作,我会更有名、更多引用、更好的教职;但科研生涯会变得不那么兴奋。”

对“挑战难事”的反思:“说得好听点是挑战自己,说得难听点就是自虐。但如果是为了获得信息、丰富经验和能力,那值得。”


他有一个核心命题:“AI 本质是简单的。”(他强调这是 statement 不是 conclusion)

解释:因为你可以做实验。相比物理——能量尺度限制了实验数据——AI 不受这种约束。想做什么实验都能做,只是需要时间扩算力、准备 infra,但没有根本性困难。

“AI 不会给人撞墙的感觉,不是因为方法穷尽了,而是因为想法太多了,挨个试不过来。”

未来 6 到 12 个月 AI 会开始自己做实验——不是只写代码,而是运行实验、分析结果、提出新假设、设计新代码、跑新实验,这条链会逐渐闭合。

AI自主实验的循环链条,机器人科学家在实验室中


最后,关于他给年轻人的建议。

“纯语言模型方向,蓝海已经不是蓝海了,我赶上了末班车。”

但 AI 是非常大的领域——多模态生成、机器人、用 AI 解决实际科学问题,都还是蓝海。

“对足够年轻的人,做现在最热的事未必是对的;做没人做的事,可能是更好的选择。”

关于自己的未来,他说不会在谷歌长留。“如此公开地表达这一点——我觉得可能不会。”

“我还是会去挑战自己,需要折磨自己,只是得先找到值得折磨自己的东西。”


最后一问:“关键的赌注是什么?”

“Long horizon。(长时程)”


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

查看文章页 ↗