Google 发布 Gemini Omni 全能多模态模型

一位年轻创作者站在巨大的全息屏幕前，周围环绕着文字、图像、视频、音频的彩色光球，象征多模态融合，窗外是黄昏时分的城市天际线

2026 年的 Google I/O 大会，注定要被载入 AI 发展史册。

当业界还在讨论多模态模型的边界在哪里时，Google 直接给出了一个极具野心的答案——Gemini Omni，一款被定位为“接受任意输入、生成任意输出”的全能生成系统。它不只是单一的视频模型，而是将文字、图像、视频、音频乃至交互仿真全部整合在同一框架之下，直接对标一个真正意义上的一站式 AI 创作中枢。

创作者站在融合控制台前，周围悬浮着视频、图像、音频、交互界面的图标元素，背景是科技感的城市天际线

与此同时，Gemini 3.5 Flash 以“黑马”姿态打破 Flash 系列“轻量经济型”的传统定位，在编程与智能体任务中全面超越上一代旗舰 Gemini 3.1 Pro；OpenAI 的通用推理模型则攻克了近 80 年的数学难题；Cursor、DeepSeek、OPPO、CapCut、地平线等厂商也在同一天密集发布新模型与产品——AI 行业仿佛被按下了加速键，一系列发布背后，一条清晰的产业主线正在浮现：多模态融合、成本下探、端侧落地、创作民主化，所有线索在这一周交汇。

本文将逐一梳理本次 I/O 大会及同期的重要 AI 发布，带你看清这场变革的全貌。

Gemini Omni：谷歌的 Nano Banana 时刻

如果要用一句话概括 Gemini Omni 的意义，那就是——Google 正在把 Nano Banana 的图像创作思路延伸至视频领域，尝试打造 AI 视频的 Nano Banana 时刻。

所谓 Nano Banana 时刻，指的是当一个工具强大到足以让普通人跳过专业门槛，直接产出专业级内容时，整个行业的游戏规则就会被改写。ChatGPT 对话式写作做到了这一点，Midjourney 对话式出图做到了这一点，现在 Gemini Omni 想要在视频领域复制同样的路径。

Gemini Omni 的核心架构并非单一视频模型，而是融合了三大技术底座：

Nano Banana 图像模型：提供高质量图像生成能力
Veo 视频模型：承担视频创作与渲染任务
Genie 世界模型：理解并构建可交互的环境结构

三者的融合使得 Gemini Omni 可以实现从多模态素材输入到高质量视频输出的一站式创作——用户可以输入一段文字描述、一张参考图片、甚至一段音频，模型就能直接生成符合要求的视频内容。

物理世界深度理解：质的飞跃

Gemini Omni 最值得关注的突破，不在于画面渲染质量，而在于它对物理世界的深度理解。

传统 AI 视频生成有一个致命短板：生成的画面常常违背物理规律——物体飘浮、影子方向错误、流体运动失真、重力效果缺失。Gemini Omni 在重力、动能、流体等物理效果模拟上实现了质的飞跃，生成内容更符合现实逻辑，从根本上大幅降低了画面失真、动作违背物理规律等问题。

这意味着什么？意味着 AI 生成的视频第一次可以被用于对真实性有要求的工作流，而不只是创意概念展示。

自然语言多轮对话式编辑

视频编辑与交互是 Gemini Omni 的另一大核心亮点。它支持自然语言多轮对话式编辑，用户可以像与剪辑师沟通一样，逐次调整视频风格、物体材质、场景特效等内容。每次修改都基于前序结果迭代，精准保留人物动作、环境结构与上下文一致性，无需整体重绘。

举例来说，用户可以让 Gemini Omni 生成一段咖啡馆场景视频，然后通过对话逐步调整：把白天的光线换成黄昏氛围，把桌上的咖啡杯换成书本，把背景音乐从爵士换成古典。整个过程无需重新生成完整视频，模型会智能识别并只修改需要变动的部分。

用户坐在咖啡馆桌前，桌面浮空显示着黄昏滤镜、音乐符号、书本等编辑选项卡，窗外是暖色调的街景

降低视频创作门槛

Gemini Omni 的发布大幅降低了视频创作的门槛。普通用户仅凭手机素材和文字指令，即可完成专业级视频制作。内容生产效率与创作边界被进一步拓展，视频创作不再是专业剪辑师的专属技能。

Gemini 3.5 Flash：Flash 系列逆袭，旗舰能力+极速响应

在同一天的 I/O 大会上，Google 还发布了 Gemini 3.5 Flash，这是 Gemini 3.5 系列首款公开模型，已于 5 月 20 日面向全球所有用户开放。

Gemini 3.5 Flash 打破了 Flash 系列“轻量经济型”的传统定位，在编程、真实环境 AI 智能体任务等核心测试中，性能全面超越上一代旗舰 Gemini 3.1 Pro，同时输出 token 速度达到其他前沿模型的 4 倍，实现“旗舰级能力 + 极速响应”的双重突破。

核心能力测试数据

Gemini 3.5 Flash 的表现相当亮眼：

编程领域 - Terminal-Bench 2.1 测试得分 76.2%，高于 Gemini 3.1 Pro 的 70.3% - SWE-Bench 真实软件工程任务得分 55.1%，同样小幅领先 3.1 Pro 的 54.2%

智能体任务 - MCP Atlas 多步骤工作流基准测试达 83.6%，超越 Gemini 3.1 Pro（78.2%）与 Claude Opus 4.7（79.1%），成为当前同类最优水平

多模态理解能力 - CharXiv Reasoning 测试得分 84.2%，位居前沿模型前列

速度与成本优势

速度与成本是 Gemini 3.5 Flash 的核心优势。官方数据显示：

输出速率达 289 token/秒，多步骤智能体任务中速度优势会持续叠加
执行同等任务费用不到其他前沿模型的一半
定价为每百万输入 token 1.50 美元、输出 9.00 美元

这一定价策略极具侵略性——Google 显然希望在保持性能领先的同时，用价格优势吸引开发者和企业用户。Gemini 3.5 Flash 的推出标志着 Flash 系列正式转型为“前沿 Agent 级”模型，重点适配多步骤智能体工作流、复杂编程辅助、百万级长文档分析等场景。

OpenAI 攻克 80 年数学猜想：AI 科研迈入新阶段

就在 Google I/O 大会的次日，OpenAI 发布了一条震动学界的消息：其内部通用推理模型成功推翻了数学家 Paul Erdős 在 1946 年提出的平面单位距离猜想。

这一困扰数学界近 80 年的组合几何核心难题迎来突破性解答，被菲尔兹奖得主 Tim Gowers 评价为 AI 数学的里程碑。

问题背景

平面单位距离问题看似简单：在平面上放置 n 个点，两点间距恰好为 1 的“单位距离点对”最多能有多少组。近 80 年来，学界普遍认为最优构造接近正方形网格，单位距离点对数量增速仅略快于线性。Erdős 据此提出猜想，其上界为 n^(1+o(1))。

突破性发现

OpenAI 模型找到了全新构造方式，证明存在无穷多 n，可实现至少 n^(1+δ) 的单位距离点对，δ 经优化可达 0.014，直接否定了长期主流猜想。

数学家站在巨大的黑板前，周围环绕着悬浮的数学公式和几何图形，温暖的台灯光照亮整个空间

此次突破尤为震撼的是，解题模型并非专用数学证明系统，而是通用推理模型。模型创新性引入代数数论工具，借助代数数域、无限类域塔等理论构建点阵结构，跨领域连接离散几何与数论，完成了人类数学家未曾想到的论证路径。该证明已通过外部专家验证。

里程碑意义

这一成果标志着 AI 从辅助解题迈向自主探索开放难题的新阶段。AI 不再局限于已有知识的应用，而是能提出原创构造、完成复杂长链推理并产出可被学术同行检验的严谨证明，直接切入数学研究最核心的创新环节。

同期发布：百花齐放的 AI 生态

Cursor Composer 2.5：代码模型的又一次进化

Cursor 正式推出新一代代码模型 Composer 2.5，对比上一代 Composer 2，模型整体智能程度与实际运行表现实现显著进步。新版本能够稳定适配长时间连续作业场景，对于复杂指令的执行契合度更高，人机协作交互体验也得到优化。该模型依旧依托 Kimi K2.5 框架搭建而成。

此次模型能力升级依托三大技术优化方向：

引入基于文本反馈的定向强化学习机制，针对性修正任务执行过程中出现的各类问题
训练所用合成数据体量大幅扩充，规模达到前代产品的 二十五倍
采用分片 Muon 搭配双网格 HSDP 架构，万亿参数规模模型的优化器单步运行耗时控制在 0.2 秒

计费层面划分两个版本： - 常规版本：每百万输入 token 0.50 美元，输出 2.50 美元 - 高速版本：每百万输入 token 3 美元，输出 15 美元（设为默认选用模式）

DeepSeek-V4-Pro API 永久降价

DeepSeek 官方发布价格调整通知，DeepSeek-V4-Pro 模型当前执行的 2.5 折限时优惠将于 5 月 31 日 23:59 正式结束，优惠结束后相关资费不会恢复原有标准，而是直接转为永久降价模式。

从 6 月 1 日开始，该模型 API 计费价格统一调整为初始定价的四分之一：

缓存未命中状态下，输入每百万 tokens 0.435 美元
输出每百万 tokens 0.87 美元

更低的调用成本将助力模型在各类业务场景中扩大落地范围。

OPPO 开源端侧安卓 AI 智能体

OPPO 旗下 Multi-X 团队开源 X-OmniClaw 安卓 AI 智能体，可调取手机摄像头、屏幕以及语音模块，在终端设备内独立完成各类实操任务，所有基础运行流程均部署于设备本地。

与 RedFinger、阿里无影等产品依托数据中心虚拟安卓实例不同，X-OmniClaw 将感知、操控、应用交互核心逻辑部署在手机端，仅涉及高阶推理需求时才联动云端模型协同运算。

产品整合摄像头、屏幕、语音三类感知通道，依托视觉语言模型解析当下场景与用户指令，再对应执行操作动作。实际场景里可实现商品价格比对、习题作答，根据语音指令筛选相册指定图片并联动剪辑软件完成视频制作。

项目依托 HermesApp 开源框架打造，吸收 UI-TARS 纯视觉技术优势，源代码已正式上架 GitHub。

CapCut 与 Google Gemini 达成合作

CapCut 正式宣布与谷歌 AI 助手 Gemini 达成深度合作。未来用户可直接在 Gemini 应用内调用 CapCut 的视频与图像编辑能力，无需在多个应用间频繁切换，实现创作全流程无缝衔接。

不同国家的创作者们围坐在圆形协作桌前，各自的设备无缝连接到中央的全息Gemini界面，桌面上散落着视频缩略图

用户可通过自然语言下达指令，完成视频裁剪、画幅调整、特效添加等操作，编辑结果直接返回对话窗口，形成从灵感构思、素材生成到后期制作的一站式创作闭环。

本次合作紧随 Google I/O 2026 大会发布 Gemini Omni 新模型之后，契合谷歌以 Gemini 为核心打造智能创作生态的战略：由 Gemini 承担理解与生成任务，CapCut 负责专业剪辑出片。

地平线开源 HoloMotion-1

地平线正式发布并开源 HoloMotion-1 模型，产品主要应用于人形机器人全身控制场景。模型整体参数达到 4 亿级别，能够在设备端实现每秒 300 帧的高速实时推理，满足机器人动态操控的时效要求。

模型底层搭载混合专家 Transformer 架构，能够依托视频素材、动作捕捉以及遥操作相关数据，学习复刻各类复杂的全身肢体动作。

此次开源举措能够有效削减人形机器人全身控制领域的研发成本与技术门槛，加快在各类实际场景中规模化落地使用。按照官方规划，后续迭代版本还会逐步拓展能力边界，实现语言指令生成动作、复杂地形适配行进以及不同机型通用控制等进阶功能。

写在最后：AI 发展的一天，与它揭示的趋势

2026 年 5 月 20 日至 21 日这两天，AI 行业发生了太多事情。

如果非要找一个词来概括这一周的特点，我会用“生态成型”。

Google 的 Gemini Omni 和 Gemini 3.5 Flash 展现了多模态融合的终极形态；OpenAI 证明了通用模型在数学创新领域同样能有所作为；Cursor 和 DeepSeek 在代码与成本端持续深耕；OPPO 把 AI 智能体从云端拉到了用户掌心的手机上；CapCut 与 Gemini 的合作则展示了工具间智能集成的可能性；地平线的开源则让机器人控制技术的普及成为可能。

所有这些发布背后，有三条清晰的趋势线在浮现：

第一，多模态融合从噱头走向落地。 Gemini Omni 整合文字、图像、视频、音频、交互仿真于同一框架，不再是多模态的简单拼接，而是真正的原生融合。

第二，成本持续下探。 Gemini 3.5 Flash 用不到竞品一半的价格提供超越上一代旗舰的性能，DeepSeek 直接把价格打到原来的四分之一。这标志着 AI 应用的成本障碍正在被快速消除。

第三，端侧与专业化并行。 OPPO 的端侧智能体、地平线的机器人控制模型、CapCut 的专业剪辑能力，都在把 AI 从通用云端推向具体场景的纵深。

2026 年的 AI 竞赛，不是某一个模型赢了某一轮那么简单。这是一场关于生态、关于成本、关于场景的全面竞争。而这一次，Google 显然不想只做一个旁观者。