← 返回文章列表
查看 ↗

Karpathy 去 Anthropic 这件事,我现在更愿意把它看成一个人回到现场,而不是一次普通跳槽。

一个人影从讲台/舞台的聚光灯下走出,穿过一道光幕,进入一个灯火通明的服务器机房实验室。象征从公众教育者回到技术研究现场。

一个讲台和空荡荡的礼堂逐渐模糊,前方逐渐清晰出现服务器机房的蓝色光芒。象征 Karpathy 从教育者身份回到研究现场的转变。


如果只从公司关系看,这当然很有戏剧性。

OpenAI founding team 成员,Tesla Autopilot 早期负责人,去了 OpenAI 现在最难缠的竞争对手。这个叙事框架太容易接受了,接受完发现什么都没想。你脑子里多了一个「啊这」,但它没有给你任何新的坐标。

怎么说呢,这其实是科技媒体最擅长的一种讲法。把人事变动翻译成「谁挖了谁」,把技术领袖的流动简化成「谁赢了谁」。它不一定是错的,但它一定太浅了。浅到把一个本来很有层次的事件,拍扁成一张新闻卡片。

所以我今天想认真聊聊这件事,不聊新闻,聊背后的那个判断。


Karpathy 过去几年其实一直站在两个身份之间。

一个身份是 frontier researcher。他知道最前沿的大模型训练长什么样,知道系统工程、数据管道和组织到底是怎么回事。这些东西不是看书能看会的,得在那里面泡过,犯过错,复现过别人的实验,才能真正理解边在哪。

另一个身份是 public educator。他非常在意怎么把复杂的东西讲清楚,怎么让更多人真正理解模型,而不是只会复述几个新名词。他那条著名的「软件 3.0」那条线,从 code 变成 context,人通过 prompt、tools、memory、instructions 去编程一个 LLM——这整套框架,不是写论文能写出来的,是他从实战里抽出来,然后用一种任何人能看懂的方式讲出来的。

两个身份都很好。但坦率的讲,这两个身份之间有张力。

当老师讲久了,会离训练场越来越远。这不是说讲课会让人变蠢,恰恰相反,讲课需要你把东西想得非常清楚才能输出。但训练场需要的那种「感知」,是在实验室里泡出来的——数据灌进去跑崩了你知道是哪里出了问题,实验结果出来你能闻出味道不对。这些东西很难通过讲课传递,因为它本身就很难描述。

AI 这一轮变化又太快了。

2024 年大家还在争论模型能力边界,GPT-4 之后谁追上了谁。2025 年开始集中讨论 agent,能不能自动化、多自主、怎么规划。2026 年,一个更核心的问题已经冒出来了:模型能不能参与训练下一个模型?

这个问题听起来有点绕,但其实很直接。以前训练模型靠人,靠数据,靠 GPU,靠算法工程师的经验。现在大家开始想,如果把模型放进去,让它帮研究员读实验日志、整理数据、提假设、跑 ablation——它能不能把研究流程本身加速?

站在外面当然能观察。网上每天都有新的论文解读、新出来的 benchmark 排名、各家公司的发布动态。看多了你会有一种错觉,觉得自己跟上了。但很难知道哪些变化是真拐点,哪些只是 demo 很漂亮,哪些是工程上已经跑通了但还没发出来的。

Karpathy 肯定比我更清楚这个距离感有多大。


所以他官宣里最关键的我觉得不是「加入 Anthropic」这几个字,而是那句「get back to R&D」。

这句话很平。太平了,平到如果不是认真想一下,很容易就滑过去了。

他不是去拿一个新 title 的。Karpathy 这个量级的人,不缺 title。他也不是去给 Claude 做一层漂亮外壳的,Anthropic 不缺做产品的工程师。

他是在回到一个只有在场内才能看清楚的位置。

这个说法我很喜欢。它把一次人事变动还原成了一个人对自己状态的诚实判断。几年在外面讲课、做项目、写内容,他一定非常清楚自己离训练场有多远。不是说远了就不好,但当你意识到自己已经够远的时候,回到现场的冲动就变得很具体了。


Anthropic 给他的,也不是一个普通研究岗。

公开信息里最重要的细节是这个:他进入 pre-training team,并组一个小团队,用 Claude 加速 pre-training research。

一个人站在巨大的预训练集群机器前,屏幕显示数据流和训练曲线,Claude 的抽象光球核心悬浮在中央,象征用 Claude 加速预训练研究。

这句话稍微停一下。进去做 pre-training 本身就已经很有意味了。pre-training 就是预训练,模型最底层的能力在这里被塑造。这个方向不是消费级产品,不是评测榜单,不是某个 killer app,它的核心是在回答一个问题:下一代模型能不能更好。

然后有意思的来了——他要做的不是 Claude 的功能,不是让 Claude 长得更像某个应用场景,而是用 Claude 加速 pre-training research。换句话说,他去做的不是 Claude for people,而是 Claude for Claude。

这个表述听起来像一个梗。但它其实是 frontier lab 下一阶段竞争的核心问题。

GPU 当然重要,数据当然重要,算法当然重要,infra 当然重要。但当所有大公司都在堆这些东西的时候——当你有足够的 H100、有足够多的数据、有一套基本合理的算法——另一个差异会变得越来越关键:

谁能更快把一个模糊 hypothesis 变成可跑实验。

谁能更快读懂训练日志里的异常信号。

谁能更快找到失败实验之间的共同模式。

谁能更快把研究员的判断沉淀成下一轮实验的参数。

这些事情过去靠什么?靠研究员本人,靠资深工程师,靠内部工具,靠年复一年的经验积累。现在的问题变成:Claude 能不能参与进去?

注意,这里说的不是让 Claude 写几段脚本、生成一些代码、做个总结报告就完了。它说的是让 Claude 成为一个研究流程里的工作单元:整理实验日志,追踪数据变化,读取训练 pipeline,读懂 eval 结果,提出 ablation 假设,把不同实验之间的关系串起来。

这不是在说 AI 替代研究员。这是一个增强逻辑:一个研究员加一个能理解研究语境的 Claude,产出高于一个研究员单独工作。

如果这条路径跑通了——我是说如果,真的跑通了,不是 demo 跑通了——Anthropic 得到的就不是一个更会写代码的 Claude,而是一个更会参与 Claude 诞生过程的 Claude。

这才是 Karpathy 适合去的地方。


你想想看,这件事反过来还帮我们理解了 Karpathy 过去几年一直在讲的那套话。

Software 3.0:软件正在从 code 变成 context,人通过 prompt、tools、memory、instructions 去编程一个 LLM。这套框架他讲了挺久,很多做 AI 应用的人都在引用。

但把这套话放回 pre-training,就会更有意思。

如果 Software 3.0 的意思是「人通过 context 编程模型」,那么未来训练模型的过程本身,是不是也会变成 Software 3.0 的一部分?

研究员提供的 hypothesis 是 context。实验结果是 context。数据清洗的标准是 context。失败的教训是 context。如果模型能读懂这些 context,并把它们组织成下一轮实验的基础——那人和模型共同训练模型这件事,就不是一个遥远的概念,而是一个正在发生的转换。

Karpathy 过去几年一直在把这件事讲给别人听。现在他有机会把自己讲的东西做成现实。


这也解释了 Anthropic 这家公司接下来可能会怎么走。

它不一定是最会讲消费级叙事的公司。OpenAI 更像在把 ChatGPT 推成默认入口,每个月都有新功能,让普通用户感受到 AI 的存在。Google 更像在押 multimodal output 和生成式 UI,做的是让 AI 的输出更好看、更即时、更有感官冲击力。

Anthropic 的长期气质不是这个方向。它更像另一条线:让模型稳定进入人的工作上下文,理解工具边界,按 spec 工作,留下可追踪的结果。

你想想 Claude Code,想想 Artifacts,想想 MCP,想想项目指令,想想 sub agents。

这些东西单看都是功能。Claude Code 是一个代码工具,Artifacts 是一个展示格式,MCP 是一个协议,项目指令是一个配置方式,sub agents 是一个组织结构。你可以把它们一个一个单独拿出来说,没什么了不起的。

多个漂浮的全息界面围绕一个中央 AI 核心——代码编辑窗口、文档展示、协议连接图、配置面板、代理协调图,像星座一样排列在空中。

但连起来看,它们其实是在回答同一个问题:怎样让一个模型真正成为工作系统的一部分?

不是聊天框里的玩具,而是能在你的上下文里理解你的需求、调用你的工具、按你的标准输出、留下你能追溯的结果。

这和 Karpathy 的世界观能接上。他一直在讲 AI 怎么从「被问问题的工具」变成「参与工作的伙伴」。Anthropic 这几年做的产品,底层逻辑其实就在往这个方向走。Claude Code 不是一个炫技的项目,它代表的是一种判断:模型的价值不只是回答问题,而是在工作流程里持续存在。


还有一条线我觉得也值得拉出来说说。

Karpathy 5 月 12 日发的那条推文,关于 HTML output 的那条。他当时在说的是:人更喜欢用 audio 输入,但 AI 更适合用 vision 输出。输出会从 raw text 到 markdown,到 HTML,再往 video 和 interactive simulation 走。

表面看是在讲输出格式。但我更愿意把它理解成在讲 interface——人和 AI 之间的接口正在变化。

以前我们把 AI 当聊天框,text 输入 text 输出就够了。后来我们把 AI 当工具,markdown、代码、表格开始重要。再往后,如果 AI 要进入真实工作环境,它必须同时理解输入端的 context,和输出端的可交互表达。

所以那条推文和这次加入 Anthropic 能连起来看。前者是在说 interface 的演进,后者是一个人去了最执着于 context 和 agent workflow 的公司。

这个联系不是我想多了。Karpathy 发的每一条动态其实都在透露他对 AI 发展的判断,他加入 Anthropic 是最近最大的一次判断落地。


我不想把这件事讲成「Anthropic 赢了」这种简单结论。

这个结论的问题是它会让人把注意力放在竞争格局上,而不是放在真正重要的问题上。「谁赢了」是一个静态的叙事,赢了之后呢?输了之后呢?没有然后。

更准确的说法是:Karpathy 的加入让 Anthropic 的一个长期判断变得更清楚了。

什么判断?

下一阶段模型竞争,不只是哪个模型回答更聪明——那个问题在 2026 年已经不是一个能拉开差距的问题了——而是谁能把模型放进更高质量的研究和工作循环里。

谁的模型更能参与 research loop,谁的模型更能理解工作 context,谁的模型更能作为一个工作单元而不是一个问答机器存在。这些东西才是接下来真正有差异的地方。

Anthropic 过去几年在方向上押得比较准。Claude Code 出来的时候,很多人还在讨论 long context 有多少 token 上限,Anthropic 已经把它做成一个能让模型持续追踪项目状态的产品了。MCP 刚出来的时候,很多人还不太理解这个协议的价值,现在看看 Claude Code 能调用多少工具,你就知道当年那个判断是对的。

Karpathy 去 Anthropic,让这个方向上又多了一个重量级的人。


那具体能带来什么?

我自己的判断是有三层。

第一层是把 pre-training research 里大量细碎但关键的工作系统化。

frontier research 里的进展很少出现在发布会上。它在数据清洗的细节里,在实验复现的过程中,在训练日志的分析里,在 eval 设计的选择里,在异常排查的路径里,在 baseline 对比的精度里。

这些东西教科书不会写,论文不会细说,但它决定了一个 lab 的真实水平。一个能稳定参与这些环节的 Claude,对 Anthropic 的价值会比一个只会写 demo 的 Claude 大得多。这件事做成了,Anthropic 的内部研发效率会比竞争对手高一个档次——不是高在算法创新上,而是高在研究循环的速度上。

一个完整的科研循环可视化——研究员在实验室里分析实验日志、整理数据、提出假设、运行消融实验,流程像永动机一样不断循环。

第二层是把「研究员的判断」写成模型能读懂的 context。

这是 Karpathy 最擅长的事情之一。他能把复杂系统拆开,能把 tacit knowledge——那种「我知道,但我讲不清楚」的知识——变成别人能理解的结构。

他过去几年讲课、写文章、做项目,一直在做这件事。现在他要做的可能不是把这些东西讲给学生听,而是把它们整理成 Claude 能理解、能追踪、能复用的研究环境。

研究员在实验过程中做的判断,哪些维度重要,哪些数据异常,哪次实验的方向值得 follow up——这些东西过去靠人记在脑子里,或者记在笔记本里。现在如果能变成 Claude 能读懂的 context,并在后续实验中自动被调用,这个知识管理的效率会是指数级的。

第三层是这件事会反过来影响 Claude 的产品气质。

这个判断我觉得是最有意思的,但也是最难在短期内看到的。

一个模型如果长期被用于 spec、实验、debug、eval、research memory,它最后大概率会更擅长类似的工作:听懂复杂约束,保留长上下文,处理多步任务,解释中间判断,和人一起做不确定的问题。

这不会立刻体现在某个发布会上。不会某天 Claude 发公告说「我现在更擅长研究协助了」。它更可能先体现在 Anthropic 内部的研究效率上,然后慢慢渗透到 Claude Code、Artifacts、长上下文、MCP 和企业工作流里。

也就是说,Karpathy 去 Anthropic 之后,最值得看的不是他会不会马上发论文——那个太显性了,不重要——而是 6 到 18 个月后,Claude 会不会更像一个能参与复杂项目的研究同事:更能读懂项目,更能追踪上下文,更能提出实验,更能解释失败,也更能把人的模糊意图变成可验证的工作。

这是我对这件事最期待的部分。


把话说回到开头。

我为什么要把这件事定义为「一个人回到现场」?

因为它本质上不是一个争夺战,而是一个判断。Karpathy 一定做过计算,在 OpenAI 继续做 external researcher 是舒服的,title 好听,影响力大,不用面对 pre-training 里那些让人头皮发麻的工程细节。但他还是回去了。回到那个只有场内才能看清楚的位置。

这种判断不是靠信息优势做出来的,是靠对自己状态的诚实做出来的。

这个区分对创业者来说也是有意义的。

你每天看 AI 行业的信息,看哪家发布了新模型,看哪家拿到了新融资,看哪个方向被资本追着跑。这些信息重要,但它没法给你判断。判断需要的是你知道自己在哪个位置,你离什么最近,你想参与哪个游戏。

Karpathy 的选择给我们的参照不是「去 Anthropic 更好」,而是「想清楚自己在哪里很重要」。


最后说几句落到实处的。

Karpathy 去 Anthropic 这件事落到自己身上也很直接:

未来的产品,不只是给人用,也会给 agent 用。

未来的文档,不只是给人读,也会给 agent 读。

未来的工作流,不只是让人点击,也要让 agent 能理解、调用、验证和恢复。

这三句话看起来很朴素,但如果你认真想过,就会知道它们的重量。你的 API 设计、你的数据结构、你的 prompt 策略、你的错误处理方式——所有这些东西,在未来都会有一个额外的使用方:AI agent。

它不只是给你用的,它也是给 agent 用的。

这件事提醒我的不是「谁赢谁输」,而是我们可能正在进入一个阶段:

最重要的软件,不再只是写出来的 code,而是能被模型读懂、执行、纠错和继承的 context。

Karpathy 选择回到训练场,可能就是因为这件事只有在场内才能真正看清楚。而我们这些在场外的人,能做的就是把自己正在做的事情,想象成也在被一个模型读取和使用——然后问自己,它读得懂吗?它能执行吗?它出错了我能纠错吗?

一个人站在远处,透过窗户/屏幕看着另一个人在操作台前工作,背景是数据流动和模型架构图。隐喻场外人想象自己的工作被模型读取和使用。

这个问题,值得每个在做 AI 应用的人认真想想。


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

查看文章页 ↗