DeepSeek 的 10 万亿美元大战略【译】

一位年轻的中国科学家站在巨大的芯片和数据中心之上，俯瞰由长江存储、SSD和LPDDR组成的硬件生态全景，象征DeepSeek的宏大战略

你有没有想过，DeepSeek 到底打算怎么赚钱，而且是赚大钱？

他们没有像智谱（GLM）、月之暗面（MoonShot）和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日，他们甚至连一个 Harness 都没有。而且，DeepSeek 还长期致力于开源，乐此不疲地分享自己的"独家秘方"。

DeepSeek选择开源之路，不做订阅服务，与竞争对手形成鲜明对比

这难道是疯了吗？还是纯粹在烧钱？那些正准备给他们投资 100 亿美元的投资人们，难道是在把钱往水里扔吗？

不。在我看来，恰恰相反。

DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值，还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽。

DeepSeek 的"英雄之旅"

DeepSeek 总是逆风而行，他们不屑于去卷那种"比别人好一点点"的微调模型，也不急着去卖当下的应用。

当大家都在死磕稠密模型（Dense Models）时，DeepSeek 却迎难而上，选择了极难训练的混合专家模型（MoE, Mixture of Experts）。他们从"第一性原理"出发，发明了全新的 GRPO 算法，取代了在强化学习中虽然占据统治地位、但实现成本极高的 PPO 算法。他们摸索出了基于验证奖励的强化学习（RLVR），并将其作为提升模型推理能力的杀手锏。

他们的技术创新清单还在不断延长：

通过"多 Token 预测"（MTP）提出了一种绝妙的投机解码策略
打造了"零气泡"流水线并行技术，把有限的 GPU 资源压榨到了极致
开源了专家负载均衡器，让所有人都能轻松部署混合专家模型
发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术
发明了 Engram（印迹模块），实现了用内存换算力的神奇操作
发明了 mHC（修正超连接），解决了模型体量暴增时的训练稳定性难题

在这条路上，DeepSeek 已经走得足够远，并且已经窥见了他们的终极宿命：他们的格局根本不是卖什么编程订阅，而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈，并以此顺理成章地让自己斩获 1 万亿美元的市值。

一笔 KV 缓存的账

来看看 DeepSeek 在缓解显存压力方面做出的奠基性贡献。

我们用 KV 缓存计算器，在 100 万上下文深度、8 位精度、16 位索引器精度的条件下，对比几款主流模型：

模型	参数规模	KV 缓存需求
DeepSeek V4	1.6 万亿参数	5.48 GB
GLM5	7000 亿参数	60 GB
Qwen3-235B-A22B	2350 亿参数	89 GB

一个拥有 1.6 万亿参数的巨无霸模型，KV 缓存需求居然只有 5.48 GB——这个数字低得令人震惊。

如果这项创新被行业广泛采纳，将让那些需要处理超长任务的长程 AI 智能体成本低到难以置信，从而彻底解锁下一代崭新的应用场景。

疯狂背后的精密章法

能够在完全不牺牲模型质量的前提下，把 KV 缓存压缩得如此之小，正是 DeepSeek 敢把长时缓存价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%，而且还能免费保留好几个小时。

对于长程任务来说，由于缓存体量极小，将其"转存"到固态硬盘并在需要时重新加载，就变得极为划算。这就大大降低了对 HBM（高带宽内存）的依赖。

要知道，HBM 目前全球严重短缺，而且从中国 AI 硬件产业的角度来看，这也是制造难度极高的核心痛点。更绝的是，DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术。

HBM全球短缺背景下，DeepSeek开发SSD高速加载KV缓存技术

谁是这场"KV 缓存压缩战"的直接受益者？

长江存储（YMTC）正在崛起为全球 3D NAND 闪存巨头。闪存技术让 DeepSeek 能够直接读取缓存，从而避免了每次都重新计算 KV 的巨大算力浪费。反过来，DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场。

格局绝不仅仅局限于 NAND 和 SSD。

低功耗内存（LPDDR）同样蕴藏着巨大的潜力，可以用作存放模型权重的"大后方"，并在需要时源源不断地"流式传输"到 HBM 中，从而进一步减轻 HBM 的容量压力。

DeepSeek 那拥有庞大专家数量、并且支持 4 位权重的混合专家模型架构，完美契合了这套方案，使得其实施起来易如反掌。

这种创新配合上他们那堪称逆天的无损超紧凑 KV 缓存技术，让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。

长鑫存储（CXMT） 目前在 LPDDR 的速度上仅落后国际顶尖水平半代，在容量密度上仅落后一代。差距非常小。这意味着在不久的将来，除了管够的 NAND 闪存，中国本土生态还将迎来铺天盖地的 LPDDR 内存。

聪明地玩转存储，还能顺手给 GPU 和 ASIC 减负

用 NAND 闪存来存放 KV 缓存，不仅能延长缓存的保存时间、减轻 HBM 的压力，还能免去重复计算的烦恼，这等于变相给 GPU 和 ASIC（专用集成电路）的计算单元松了绑。

LPDDR 还可以用来存储海量的"Engram"（印迹模块）。DeepSeek 在论文中指出，虽然混合专家模型架构可以通过条件计算来扩充模型的容量，但传统的 Transformer 架构缺乏一种天然的知识检索机制，只能笨拙地通过高昂的"计算"去模拟"检索"。

为此，他们引入了 Engram 模块，将经典的 N-gram 嵌入技术升级为基于哈希、时间复杂度为 O(1) 的瞬间查找，创造了一个"条件内存"的全新稀疏维度。这极大地省下了计算量，但代价是需要巨大的内存空间来存放这个庞大的嵌入表。

这是一次经典的"用空间换时间"——读取存储的成本远比进行计算要便宜得多。在大规模部署时，这是一笔划算到家了的买卖。

由于缺乏极紫外光刻机（EUV），无法在单个芯粒上做到同等的晶体管密度，中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力上，注定会长期落后于西方顶尖显卡。因此，如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势，这种"扬长避短"的打法简直是绝配。

盘点 DeepSeek 的一盘大棋

纵观这些令人眼花缭乱的创新和他们做出的种种抉择，DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋。

DeepSeek V2 中的 MoE 和 MLA

混合专家模型让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗；而多头潜在注意力机制（MLA）更是把 KV 缓存直接砍掉了 90%，使得将缓存转存到 SSD 变得极为高效。凭借这些绝活，他们后来才能仅仅用 2048 张被阉割过的 H800 GPU，就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。

混合专家模型和MLA注意力机制让训练效率大幅提升，2048张H800即可训练顶级模型

DSA（密集跳跃注意力机制）

旨在削减长上下文场景下的计算量，同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。

mHC（修正超连接）

mHC 是 DeepSeek 在宏观架构上的一大创新，它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接（x + F(x)），而 mHC 则把这条残差流扩展成了多条并行的"信息高速公路"，并允许模型自主学习如何进行混合。

最为关键的是，它通过数学手段（将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上）强制让这些混合矩阵满足双随机性，从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。

这彻底解决了此前困扰无约束超连接的灾难性不稳定难题——此前在 270 亿参数规模下，信号放大系数会疯狂飙升到 3000 倍，导致整个训练彻底崩盘。

而它的计算成本却微乎其微：由于它完全没有改变注意力层或前馈网络层的原始浮点运算量，仅仅改变了输出在各层之间的路由方式，因此它只增加了区区 6.7% 的实际训练时间开销。

然而它带来的性能提升却极为震撼：在同等模型大小和几乎完全相同的算力预算下，27B 规模的模型在 mHC 的加持下，在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分，DROP 评测提升 3.2 分，GSM8K 数学测试提升 2.8 分，MMLU 综合学科知识提升 1.4 分。

CSA 与 HSA

它们通过对 KV Token 进行深度压缩，把本来就已经很小的 KV 缓存需求又砍掉了 90%！同时大幅降低了所需的浮点运算量，一举帮 HBM 和 GPU/ASIC 彻底解套。

对 TileLang 的重度投入

有了 TileLang（一种用于编写高性能算力内核的开源编程语言），工程师只需要编写一次算力内核代码，就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。

这将帮助中国硬件厂商从侧面解围，绕开英伟达坚不可摧的"CUDA 壁垒"。同时，这也能顺便解放 AMD 等西方的其他硬件厂商。

大规模强化学习与自动化科学研究

随着计算需求的断崖式下降，以及可供选择的本土硬件变得越来越多，DeepSeek 终于能够放开手脚，去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练。

强化学习需要生成海量的思考轨迹，动辄就会产生数万亿的 Token，这在过去烧钱速度极其恐怖。此外，要训练出支持 100 万上下文的模型，就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼，才能真正解锁解决复杂长程任务的能力。

强化学习需要生成海量思考轨迹才能解锁100万上下文的长程任务能力

硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击"自动化人工智能研究"（RSI）。这种让 AI 左右互搏、自主进化的模式伴随着大量的试错，耗资极度高昂。但如果想要彻底探寻整个算法设计的未知空间，RSI 是必经之路。

DeepSeek 今日的试金石，行业明天的教科书

如今，DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新，早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。

打造了 GLM 系列模型的智谱 AI 已经用上了 MLA 和 DSA
月之暗面（Kimi）大方承认自家的最新架构正是基于 DeepSeek 的演进

作为礼尚往来，DeepSeek 在大规模训练中也采用了 Muon 优化器，而该优化器在超大规模训练中的威力，正是被 Kimi 团队首先发掘并证明的。

那到底怎么赚大钱呢？

看看 OpenAI 的经典案例。OpenAI 曾与 AMD 以及 Cerebras 达成协议：随着 OpenAI 采购并消耗这两家公司的芯片达到特定里程碑，OpenAI 就能以极低的价格获得这两家公司的股票认股权证。

根据 AMD 官方发布的新闻稿："作为协议的一部分，为了深度绑定双方的战略利益，AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐步解锁。"

我大胆预测，DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。

通过深度联合调优，DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时，真正做到平替、甚至超越西方硬件。

眼下，西方所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种"用技术换股权、用生态扶持分蛋糕"的精妙商业模式，DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业，还能在其中切下最肥美的一块蛋糕，进而将自己送入 1 万亿美元市值的超级俱乐部。

这不仅能让他们赚到比卖什么订阅软件多得多的真金白银，还能顺便实现他们口中"让通用人工智能惠及每一个人"的宏伟愿景。

梁文锋作为传奇量化大师詹姆斯·西蒙斯的铁杆粉丝，绝对是一位顶级聪明的资本家，他绝不可能漏掉这盘大棋。

只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来，这就是唯一能完美解释一切的底层逻辑。

串联DeepSeek所有反常举动，揭示撬动10万亿美元硬件生态的终极逻辑