谈到FDE，浅析下DataBricks和Snowflake 的前世今生

数据双龙崛起，AI时代的基础设施擂台

如果要用一句话概括过去十年数据基础设施领域的最大变局，Databricks和Snowflake的崛起绝对榜上有名。

过去十年数据基础设施最大变局的双峰崛起

这两家公司，一个从学术界的开源项目中脱胎而出，一个从工业界的数据库老兵手中诞生，如今却殊途同归地站上了AI时代的基础设施擂台。它们不是传统的IT外包公司，也不是卖硬件的系统集成商，而是高度标准化的SaaS/PaaS平台——专注为企业提供构建数据应用的底层支撑。

有意思的是，这两家的故事不只是商业竞争那么简单。它们各自代表了一种截然不同的技术哲学：一个强调开放与融合，一个追求极致与弹性。理解它们的前世今生，或许能让我们看清数据基础设施未来的走向，也能为中国FDE业务找到一些可借鉴的路径。

从学术界走出来的数据新贵

时间拨回2013年，加州大学伯克利分校AMPLab的一群教授和博士生正在为一件事苦恼：他们开发的Apache Spark——一种比Hadoop快100倍的大数据计算引擎——虽然技术先进，但企业想用好它却并不容易。

部署Spark集群需要专业人才，维护和调优更是耗时耗力。这让很多企业望而却步，哪怕他们深知数据价值的重要性。

Databricks的诞生正是为了解决这个问题。创始人Matei Zaharia（Apache Spark创始人）、Ali Ghodsi（现任CEO）等人想要打造一个完全托管的云端Spark SaaS服务，让企业能够“一键”运行大数据计算，无需操心集群配置和底层优化。

这个简单的愿景，却击中了数据工程师和科学家们最深的痛点：他们渴望从繁琐的基础设施运维中解放出来，专注于挖掘数据本身的价值。

湖仓一体：一次架构创新的降维打击

Databricks真正站稳脚跟，靠的是一次架构层面的创新——Lakehouse（湖仓一体）。

在Databricks推出Lakehouse之前，企业面临一个两难选择：数据仓库能提供高性能的SQL查询和事务支持，但存储成本高，而且难以处理海量非结构化数据；数据湖存储成本低、能处理各种类型的数据，但又缺乏事务支持和高效的SQL能力。

鱼和熊掌，似乎不可兼得。

2015年，Databricks推出了Delta Lake这个开源存储层，首次提出了“湖仓一体”架构。这个架构的核心思想是：让数据湖拥有数据仓库的可靠性，同时保留数据湖的灵活性。Delta Lake通过事务日志实现ACID特性，支持流式写入和批量读取，企业终于可以在同一个平台上同时处理结构化和非结构化数据，进行机器学习和分析。

这个创新直接挑战了传统数据仓库的市场地位，也为数据湖注入了企业级功能。从那之后，“湖仓一体”成为现代数据平台的行业标准，而Databricks正是这个标准的重要定义者。

当AI浪潮袭来：一次13亿美元的豪赌

2023年，生成式AI开始爆发式增长。Databricks看到了巨大的机遇——或者说，危机感。

生成式AI爆发，Databricks收购MosaicML进军AI领域

如果AI是未来，那么数据基础设施必须拥抱AI。Databricks做出了一个大胆的决定：以13亿美元收购生成式AI初创公司MosaicML。

这笔收购让Databricks获得了训练和微调大模型的能力。随后，公司推出了开源语言模型Dolly和通用大模型DBRX，开始在AI领域布局。

2024年，Databricks与Meta合作，引入Llama 3.3 70B模型，支持客户利用Mosaic AI与Llama 3.3共同构建企业AI Agent。同年，Agent Bricks和Lakebase两款产品问世。

Agent Bricks的目标很明确：简化企业AI Agent开发流程。用户只需描述任务目标，系统就能自动完成从数据绑定、合成数据生成、评估优化到部署的全过程。这个产品在电力、医药等行业已经开始落地，比如夏威夷电力公司用Agent Bricks处理4万份法律文件，效率比手动调LangChain高出数倍。

Lakebase则是一个专为AI应用设计的数据库，由Databricks收购的Neon技术支撑，支持实时应用与大规模分析融合。

截至2026年1月，Databricks年化营收已达54亿美元，同比增长65%。其中AI产品年化营收达到14亿美元，占总营收的26%，成为公司增长的核心引擎。公司服务超过15000家客户，包括60%以上的财富500强企业，以及超过800家年消费超过100万美元的客户。

这组数字说明一件事：AI已经成为Databricks最重要的增长引擎。

从Oracle走出来的云原生颠覆者

视线转向另一边。2012年，Snowflake在硅谷成立，创始人Benoît Dageville和Thierry Cruanes是前Oracle的核心数据库架构师。

他们看到了什么？一个被传统数仓统治了几十年的市场，正在等待一次彻底的颠覆。

那时候的Oracle、Teradata都是物理机软硬一体部署，扩容缓慢且昂贵。即便是AWS Redshift这样的云数仓，计算与存储依然紧密绑定，无法实现真正的弹性扩展。

Snowflake的答案是：完全针对云端从零重构一个免运维、开箱即用的关系型数据仓库。

2014年产品正式发布时，Snowflake成为首个真正意义上的云原生数据仓库。但真正让它脱颖而出的是一个革命性的架构设计——存算分离。

存算分离：重新定义数据仓库的游戏规则

所谓存算分离，就是把“存储”和“计算”彻底分开。

数据以极低成本保存在云端对象存储（比如AWS S3），而计算资源只在有查询任务时才启动，查询完成后立即关闭。这意味着企业不需要为偶尔的高峰查询购买常驻的高价计算资源，真正实现了按需付费。

这种设计带来的优势是全方位的：

即时弹性：根据工作负载在几秒钟内扩展或缩减计算规模。

零管理：无需管理任何硬件，系统自动备份、更新和优化。

数据共享：轻松安全地在组织间共享数据集，形成网络效应。

存算分离架构让Snowflake在云原生时代建立了显著优势。2020年，它成为首家估值超过700亿美元的数据公司IPO，至今仍保持强大的市场竞争力。

Snowflake存算分离架构的模块化云原生优势

截至2026年1月，Snowflake年化营收达到34亿美元，拥有超过12000家企业客户。但值得注意的是，公司上市后一直未能实现盈利，2025年三季度亏损2.9亿美元。目前市值约602亿美元，与Databricks的规模差距在持续拉大。

AI时代，两种不同的进化路径

当AI浪潮袭来，Databricks和Snowflake都选择了拥抱，但路径截然不同。

Databricks的AI战略可以概括为“全链路AI基础设施”。通过收购MosaicML和Neon，它强化了AI模型训练与数据库能力，形成了从数据处理到AI模型开发的完整技术栈。它的目标是让企业能够在同一个平台上完成从数据工程到机器学习再到AI应用开发的全流程。

Snowflake的AI战略则更强调“数据驱动的智能分析”。2022年推出Snowpark，允许开发者在平台内直接运行Python、Java、Scala代码进行数据科学和机器学习开发，打破了单一SQL的局限。2023年，它与OpenAI展开合作，将生成式AI能力直接嵌入平台。2025年推出的Cortex平台专注于AI Agent开发，与SAP达成深度集成战略合作，实现双向零拷贝集成。

从数据来看，Snowflake的AI产品渗透率已达68%，超过2500个账户落地Snowflake Intelligence，年消费超100万美元的客户达733家，同比增长27%。顶级客户（年消费超1000万美元）增长56%，达56家。

这说明Snowflake在AI领域的进展同样不容小觑。

两种技术哲学的碰撞

深入对比两家公司的技术路线，能看到两种截然不同的哲学。

架构设计：Databricks走的是开源开放的路线，核心架构是Lakehouse，存储引擎是Delta Lake，计算引擎是Apache Spark，支持多种开放格式。Snowflake则更封闭一些，核心架构是存算分离，使用自有列式存储格式和向量化查询引擎。

生态策略：Databricks强调开源与生态整合，通过Delta Lake和Spark等开源项目构建技术壁垒，同时保持与多种云平台和数据工具的兼容性。Snowflake则通过自研的列式存储和查询引擎实现极致性能，通过存算分离架构提供真正的弹性扩展。

有意思的是，两者的边界正在模糊。Databricks不断增强SQL分析能力（Photon引擎），Snowflake也在加强数据工程和Python支持（Snowpark）。这种互相渗透反映了数据基础设施市场的演进趋势：从单一功能向全栈能力转变。

客户定位也有明显差异。Databricks以开发者和数据科学团队为核心，强调开源生态和端到端AI/ML能力，适合复杂数据工程和模型训练场景。Snowflake则面向企业决策者与分析师，主打云原生、存算分离的SQL数据仓库，以开箱即用、多云兼容性和数据共享为卖点，适合BI分析和结构化数据查询。

从两家公司身上，我们能学到什么

回到中国FDE业务这个语境，Databricks和Snowflake的经验有哪些可以借鉴？

第一，坚持标准化与可扩展性。

这两家公司之所以能保持高速增长，关键在于它们提供的是标准化的底层数据基础设施，而不是定制化的IT外包服务。标准化意味着可以规模化，可以以较低的边际成本实现收入增长。中国FDE业务要避免陷入“堆人头的项目制”陷阱，专注于提供可复制的标准化能力。

第二，注重合规与本地化。

在中国开展FDE业务，数据合规是必须优先考虑的问题。Databricks通过阿里云、华为云等本地合作伙伴提供服务，Snowflake通过西云数据和光环新网在AWS宁夏区域商用——它们都在努力满足中国的数据合规要求。

对于中国FDE业务来说，应该优先选择支持国产云对象存储（如OSS、COS）且通过等保认证的平台，同时关注数据分类分级和权限管理能力。

中国FDE业务选择国产云对象存储与安全认证

第三，平衡成本与性能。

数据显示，阿里云AnalyticDB MySQL版成本比Databricks低50%以上，腾讯云TCHouse-D在实时分析性能上（比如万亿级数据5秒响应）已经超越Databricks。

这意味着对于预算敏感且需要快速响应的场景，本土平台可能是更好的选择；但对于需要复杂AI工程能力的场景，Databricks的能力仍然值得重视。

第四，强化生态与合作伙伴关系。

Snowflake与AWS签署五年60亿美元战略合作协议，Databricks与Azure、AWS、GCP都建立了深度集成——它们的成功都离不开生态构建。中国FDE业务需要与云服务商、系统集成商等建立深度合作关系，构建开放的生态体系。

第五，推动AI与数据的深度融合。

Snowflake的数据市场模式——让企业安全地共享和交易AI模型——是一个值得参考的方向。中国FDE业务可以借鉴这种思路，构建企业内部的数据与AI模型共享机制，推动数据价值最大化。

殊途同归的未来

回顾这两家公司的发展历程，有一个有趣的发现：它们从完全不同的起点出发——一个来自学术界的开源社区，一个来自工业界的数据库老兵——却在AI时代殊途同归，都成为了企业数据智能的基础设施提供者。

Databricks起源于开源学术界，强在计算与AI，通过发明“湖仓一体”占领高地；Snowflake起源于工业界数据库巨头，强在云原生架构与易用性，通过发明“存算分离”颠覆了传统数仓。

它们都在告诉我们一个事实：在AI时代，数据基础设施的边界正在模糊，但核心价值始终没变——那就是提供企业构建自身数据应用的底层支撑。

对于中国FDE业务来说，这既是挑战也是机遇。挑战在于需要同时兼顾合规、成本、性能、生态等多个维度；机遇在于这是一个足够大的市场，容得下不同技术路线的探索。

关键在于，我们需要从这两家公司的经验中看到一件事：标准化、可扩展、合规友好的数据基础设施，才是这个时代真正需要的东西。

未来已来，胜负未定。但可以确定的是，那些能够把复杂的技术封装成简单体验、把开放与安全融合得恰到好处的平台，将赢得更大的市场。

开放融合与安全极致融合的未来数据平台