一个

谷歌 I/O 2026 大会上的 Gemini Omni 视频模型:目前我们所知的一切

gemini-omni-video-model-google-io-2026 封面图片

在 Google I/O 2026 大会之前,Gemini Omni 视频模型泄露了什么?

2026年5月2日,一位名为X的用户 @Thomas16937378 在谷歌 Gemini 视频生成标签页中发现了一个 UI 字符串,内容为: “从构思开始,或者尝试使用模板。由 Omni 提供技术支持。” TestingCatalog 是一个可靠的 Google AI 泄露追踪网站,它迅速发现了这一发现,并发布了一份报告,该报告在几个小时内就传播到了整个 AI 社区。

Gemini Omni 视频模型 相关信息出现在“Toucan”(谷歌目前基于 Veo-3.1 的视频生成流程在 Gemini 内部的内部代号)旁边。两周前 Google I/O 2026 5月19日至20日上映,这样的安排很难被忽视。

我从Veo最初发布以来就一直在关注谷歌的生成式视频战略,而这是视频标签页中首次出现一个全新的面向公众的产品名称。之前的更新版本——Veo 2、Veo 3、Veo 3.1——都沿用了Veo的品牌名称。“Omni”则表明其结构上有所不同。

“如果谷歌计划发布用于视频生成的 Gemini Omni,它的性能可能会超过 Veo 3.1。” — 测试目录

Gemini 用户界面中究竟发现了什么?

全部证据只有一张截图——但细节至关重要。有两点使它不仅仅是一个随机的代码引用:

  • 用户可以看到该字符串。不会隐藏在源代码中或功能开关后面。包含品牌名称的 UI 文案通常只有在团队准备公开发布时才会出现。
  • 它的位置在“巨嘴鸟”旁边这是谷歌目前基于 Veo 开发的视频生成工具的内部代号。将新代码暂存在现有生产路径旁边,是进行替换之前的标准暂存模式。

Gemini 视频标签页中新创建的个人资料页面出现了“Powered by Omni”字样,表明该功能正处于后期测试阶段。这并非开发者版本或 APK 拆解图——它直接出现在正式版界面中。

三种可能的解读: “Omni”究竟是什么?

我们目前没有架构细节、基准测试数据或官方声明。但泄露的信息支持三种解读,每一种解读都比前一种更具颠覆性。

1. 新型素食包装

最不具破坏性的解释是:Omni 只是 Gemini 视频标签页的新产品名称。 Veo 3.x 或 Veo 4 仍在后台进行实际的生成工作。品牌整合到一个 Gemini 原生名称下——类似于 Nano Banana 在 Gemini 3 / 3.1 Flash Image 中用于静态图像的方式——可以解释为什么会出现一个面向公众的字符串。

2. 一种新的 Gemini 训练视频模型

谷歌可能已经训练了一个全新的内部视频模型,并将其命名为 Gemini,用于与 Veo 并肩工作或取代 Veo。目前 Veo 负责视频,Nano Banana/Gemini 负责图像,这种架构在架构上显得不太合理。Omni 可能是将这些流程统一起来的产物,它拥有与 Veo 3.1 不同的架构和基准测试标准。

3. 真正的全能模型:单一系统即可处理图像、视频及其他更多内容

最具雄心的阅读,也是…… 姓名 实际上需要的是一个能够处理图像生成、视频生成,甚至可能还有音频的单一 Gemini 全能模型——就像 GPT-4o 定位于文本-图像-音频领域一样,但需要 原生视频输出.

如果选项 3 正确,Gemini Omni 将成为首款来自任何主要 AI 提供商的具有视频输出的顶级全向模型。 这是一个意义重大的突破。目前最先进的视频模型——Veo 3.1、Seedance 2.0 和 Kling 3.0——都是专门的视频生成器,它们本身并不具备图像生成或文本推理功能。

泄露的字符串无法区分这三种可能性。但只有第三种情况才能解释为何需要一个全新的公开名称,例如“Omni”,而不是简单地增加 Veo 的版本号。

Google Gemini 能否原生生成视频?

是的——Gemini已经通过与Veo 3.1的集成生成视频。Omni提出的问题是,谷歌是否正在从…… 分模策略 (Veo 用于视频,Nano Banana 模型用于图像,Gemini 用于文本)到 统一模型 在一个系统中处理所有模态。

如今,Gemini 的视频生成流程被标记为“由 Veo 3.1 提供支持”,而图像生成则与 Nano Banana 2 和 Nano Banana Pro 相关。谷歌将 Nano Banana Pro 描述为基于 Gemini 3 构建,并将 Nano Banana 2 描述为 Gemini 3.1 Flash Image。仅从命名方式就可以看出当前方法的碎片化程度。

统一的 Omni 模型可以带来切实的好处:

  • 各模式下质量一致 — 使用文本、图像和视频训练的单一模型,在生成故事板图像并将其动画化为视频时,将保持风格一致性。
  • 更简化的创意工作流程 — 无需在图像和视频模式之间切换。一个提示即可生成连贯的图像+视频序列。
  • 更好地理解 — 能够理解视觉和时间概念的模型可以根据复杂的文本描述生成更准确的视频。
  • 潜在的成本效益 ——维护一个大型模型而不是多个专门的模型,可以降低谷歌这种规模的基础设施成本。

Gemini Omni 与 2026 年 AI 视频生成格局的对比

视频生成是目前生成式人工智能领域竞争最激烈的类别。如果 Omni 在 2026 年 Google I/O 大会上发布,它将进入一个竞争激烈且瞬息万变的领域。以下是截至 2026 年 5 月主要参与者的排名:

模型公司主要优势状态(2026年5月)
Veo 3.1谷歌电影级的摄影技巧,音画同步居住在双子座,区域限制
种子舞 2.0字节跳动公开基准测试排名靠前,快速/Turbo 版本,90%+ 商业可用性公开可用
快乐马-1.0阿里巴巴在人工智能分析视频竞技场 (ELO 1411) 上获得 #1 称号公开可用
万 2.7阿里巴巴1080p 文字/图像/视频/编辑 + 音频同步动态效果公开可用
Kling V3.0快手标准版/专业版/O3版,$20M+月收入公开可用
索拉2OpenAI专业版提供更高分辨率仅提供API(消费者应用程序将于2026年4月29日关闭)
Grok 视频人工智能紧密整合 X/Twitter,社交优先分发扩展能力
海洛迷你麦克斯鲜明的人物性格,流畅的动作在中国市场竞争

字节跳动的 Seedance 2.0 目前,HappyHorse 在大多数公开基准测试中名列前茅,其快速版和极速版使得电影级 AI 视频的大规模制作在经济上可行。阿里巴巴的 HappyHorse-1.0 曾一度在人工智能视频竞技场排行榜上超越 Seedance,ELO 得分达到 1411。

Omni 与所有这些产品最大的区别在于“全能”二字。 以上列出的每款型号都是专用的视频生成器。 它们都不具备图像创建或文本推理功能。如果 Gemini Omni 真的能将这些功能整合起来,那么它就独树一帜了。

Google I/O 2026 将在哪里举行?何时举行?

Google I/O 2026 将于 2026 年 5 月 19 日至 20 日举行。 本次活动是谷歌年度开发者大会,历来在加州山景城的海岸线露天剧场举行。Gemini 和其他人工智能领域的最新进展已确定列入主题演讲议程。

Omni 泄露事件的时机——恰好在活动开始前两周出现——符合谷歌一贯的模式。谷歌 I/O 大会前的泄露周期通常包括 UI 字符串和 APK 拆解文件在主题演讲前 2-4 周出现,让社区有时间在正式发布前进行猜测。

话虽如此,UI 代码字符串此前也曾在产品发布前就被泄露过。对此次泄露最合理的解读是: Google 的视频产品 Omni 已在 Gemini 平台上进行后期测试,最有可能的发布时间是 5 月 19 日至 20 日。

谷歌要发布新的 Gemini 3 人工智能模型吗?

另有报道称,还有其他泄露事件发生 潘卡杰·库马尔 暗示谷歌正在测试新版 Gemini——具体来说 双子座3.2和双子座3.5 ——专注于提升性能。这些测试与 Omni 泄露事件无关,但属于同一轮 I/O 测试前的准备工作。

测试中发现的其他功能包括:

  • “Teamfood”记忆功能 — 跨会话持续存在的长期聊天上下文
  • “火花罗宾” — 一个视觉模型代号,曾与 Omni 一起出现在测试参考资料中
  • Gemini 3.1 手电筒 — 已于2026年5月8日正式上线

谷歌在 2026 年的模型战略似乎是一个双轨制方法:核心语言模型逐步升级 Gemini 版本(3.1 → 3.2 → 3.5),以及通过 Omni 实现多模态生成方面的架构飞跃。

Google Veo 3 是免费的吗?

Veo 3.1(当前版本)可通过 Gemini 获取,但已有…… 门控和区域锁定Gemini 提供免费版的基本视频生成功能,但更高分辨率的输出和更长的生成时间需要订阅 Gemini Advanced 版本。

如果 Omni 取代 Veo 3.1,其定价模式可能会发生变化。谷歌历来采用“免费增值”模式提供新的 AI 功能:基本功能免费,高级功能则需要订阅。我们预计,如果 Omni 在 I/O 大会上发布,也会采用类似的模式。

WaveSpeed AI 等第三方平台已经托管了 Veo 3.1,并计划在公开发布后不久添加任何新的 Gemini 视频模型,其按秒计费方式对于生产工作负载来说可能更具成本效益。

Gemini Nano争议:关于静默人工智能部署的警示

尽管 Omni 泄露事件引发了人们的兴奋,但谷歌的 AI 部署实践在 2026 年也招致了批评。另一个相关案例: 谷歌 Chrome 浏览器一直在未经用户许可的情况下,悄悄地将一个名为 Gemini Nano 的 4GB 人工智能模型下载到用户设备上。

名为 weights.bin 的文件位于 Chrome 用户配置文件目录中,用于支持“帮我写作”和诈骗检测等设备端功能。用户找不到任何可以退出的复选框。当用户删除该文件时,Chrome 会自动重新下载整个 4GB 的软件包。

以 Chrome 的全球规模来看,将 4GB 内存推送到数亿台设备所造成的环境成本估计相当于排放 6,000 至 60,000 吨二氧化碳。 世界许多地区的移动数据套餐将 4GB 视为一个月的全部流量限额。

《电子隐私指令》禁止在未经用户事先同意的情况下,将信息存储在用户设备上。Chrome 浏览器在没有设备端 LLM 的情况下也能正常运行,因此不存在“绝对必要”的豁免情况。鉴于谷歌准备在 I/O 大会上发布更多雄心勃勃的 AI 功能,这场争议值得关注。

如何高效地跟踪和分析 Gemini Omni 的发展情况

如果你同时关注多个来源(TestingCatalog、X/Twitter 讨论串、技术博客、谷歌官方文档)的 Gemini Omni 相关报道,信息量可能会让你应接不暇。我一直在使用 iWeaver 将这些泄露的信息汇总整理成一个连贯的时间线。

iWeaver 是一款用于办公工作流程的 AI 代理,无需复杂的操作即可处理文本、图像和文档。我向它输入泄露的原始截图、竞争对手的文章和谷歌的官方公告,它就能输出结构化的摘要,格式为 doc/pdf 文件。对于任何需要追踪来自数十个来源的快速发展的 AI 新闻的人来说,它彻底省去了手动复制、粘贴和整理的繁琐步骤。

Gemini Omni 全面上线对创作者和开发者意味着什么

如果谷歌在 2026 年 I/O 大会上推出 Omni,其实际影响将按受众群体细分:

面向内容创作者

  • 统一模型是指根据同一提示生成风格一致的缩略图和匹配的视频。
  • 无需再在 Veo(视频)和 Nano Banana(图像)之间切换。
  • 在同一流程中生成音频的潜力(如果 Omni 真的涵盖所有模态)

面向开发者

  • 单一的 API 端点即可实现多模态生成,简化了集成。
  • WaveSpeed AI 等平台计划通过与 Veo 3.1、Seedance 2.0 和 Sora 2 相同的 OpenAI 兼容端点模式来公开 Omni。
  • 对 Omni 和专业模型进行 A/B 测试变得简单

企业团队

  • Gemini旗下整合了计费和模型管理。
  • 如果一个模型就能处理以前需要三个模型才能完成的工作,那么供应商的复杂性就会降低。
  • 统一基础设施带来的潜在成本节约

官方揭晓时间预计为何时

时间很紧。Google I/O 2026 即将开幕。 5月19日Omni UI字符串出现了 5月2日. 在 I/O 大会前泄露的新公开名称的模式与主题演讲阶段的公布是一致的。

根据往年经验,我们预计:

  1. 5月19日主题演讲 — 正式公告及演示视频
  2. 当天或次日 — 为 Gemini Advanced 订阅用户提供开发者文档和 API 访问权限
  3. 1-2周内 — 第三方平台可用性(WaveSpeed AI、Oimi 等)
  4. 1个月内 — 更广泛的推广,包括免费层级访问权限
在谷歌正式宣布之前,请将这一切都视为推测。 最合理的解释是:谷歌有一款名为 Omni 的视频产品,目前处于后期测试阶段,最有可能的发布窗口是未来两周。

常见问题

Gemini Omni是什么?

Gemini Omni 是 2026 年 5 月在 Gemini 视频生成 UI 中发现的泄露的 Google AI 模型。它可能是一个统一的模型,能够在单个系统中生成文本、图像和视频,有可能取代 Google 目前的 Veo 3.1 视频模型和 Nano Banana 图像模型。

Google I/O 2026 在哪里举行?

2026 年 Google I/O 大会将于 2026 年 5 月 19 日至 20 日举行,届时谷歌年度开发者大会将在加利福尼亚州山景城的海岸线露天剧场举行。Gemini 和人工智能的最新进展已确定列入议程。

Google Veo 3 是免费的吗?

Veo 3.1 可通过 Gemini 获取,但免费版的使用权限有限。更高分辨率的输出和更长的生成周期需要订阅 Gemini Advanced 服务。如果 Omni 取代 Veo 3.1,Google 很可能会继续采用类似的免费增值定价模式。

Google Gemini 能生成视频吗?

是的。Gemini 已经通过与 Veo 3.1 的集成生成视频。Gemini Omni 的泄露表明,谷歌可能正在将原生视频生成功能直接构建到 Gemini 模型本身,而不是依赖单独的 Veo 流水线。

谷歌要发布新的 Gemini 3 人工智能模型吗?

泄露的信息显示,谷歌正在测试 Gemini 3.2 和 Gemini 3.5,同时还在测试 Omni 模型。Gemini 3.1 Flash-Lite 已于 2026 年 5 月 8 日正式发布。预计将在 5 月 19 日至 20 日举行的 Google I/O 2026 大会上发布重大消息。

Gemini Omni 与 Seedance 2.0 相比如何?

字节跳动的 Seedance 2.0 目前在大多数公开的视频生成基准测试中名列前茅,商业可用性超过 90%。Gemini Omni 的独特之处在于其统一的多模态生成功能——在一个模型中处理文本、图像和视频——这是目前任何专业视频生成器都无法实现的。

OpenAI Sora 2 发生了什么?

OpenAI 于 2026 年 4 月 29 日关闭了 Sora 2 消费者应用程序。该模型仍然只能通过 API 访问,并有一个 Pro 版本用于更高分辨率的输出。

在《双子座》游戏中,巨嘴鸟的代号是什么?

Toucan是谷歌内部对Gemini平台中基于Veo-3.1的视频生成流程的代号。Omni UI字符串出现在Toucan的提及旁边,暗示它可能是Toucan的替代品或后续产品。