A

Modelo de vídeo Gemini Omni en Google I/O 2026: Todo lo que sabemos hasta ahora.

Imagen de portada del modelo de vídeo omnidireccional gemini-google-io-2026

¿Cuál es el modelo de vídeo Gemini Omni que se filtró antes del Google I/O 2026?

El 2 de mayo de 2026, un usuario de X llamado @Thomas16937378 Descubrí una cadena de texto en la interfaz de usuario dentro de la pestaña de generación de video Gemini de Google que decía: «Empieza con una idea o prueba una plantilla. Desarrollado por Omni.» TestingCatalog, un rastreador confiable de filtraciones de IA de Google, rápidamente detectó el hallazgo y publicó un informe que se difundió por toda la comunidad de IA en cuestión de horas.

El Modelo de vídeo Gemini Omni La referencia apareció justo al lado de 'Toucan', el nombre en clave interno de la ruta de generación de vídeo actual de Google basada en Veo-3.1 dentro de Gemini. Dos semanas antes Google I/O 2026 Se inaugura los días 19 y 20 de mayo, por lo que es difícil descartar esa fecha como mero ruido.

He estado siguiendo la estrategia de video generativo de Google desde el lanzamiento original de Veo, y esta es la primera vez que aparece un nombre de producto completamente nuevo y visible para el público en la pestaña de video. Las actualizaciones anteriores —Veo 2, Veo 3, Veo 3.1— mantuvieron la marca Veo. «Omni» indica algo estructuralmente diferente.

«Si Google planea lanzar Gemini Omni para la generación de vídeo, probablemente superaría a Veo 3.1». — Catálogo de pruebas

¿Qué se descubrió realmente en la interfaz de usuario de Gemini?

Toda la evidencia se reduce a una sola captura de pantalla, pero los detalles importan. Dos cosas hacen que esto vaya más allá de una simple referencia a un código:

  • La cadena es visible para los usuarios.No está enterrado en el código fuente ni oculto tras indicadores de características. El texto de la interfaz de usuario que incluye una marca suele llegar a ese estado solo cuando un equipo se está preparando para un lanzamiento público.
  • La ubicación está al lado de 'Tucán'., el nombre en clave interno conocido de Google para la herramienta de generación de vídeo actual respaldada por Veo. El código nuevo estacionado junto a una ruta de producción existente es el patrón de preparación estándar antes de un cambio.

Un perfil recién creado en la pestaña de vídeo de Gemini mostraba la línea «Powered by Omni», lo que sugiere que la función se encuentra en fase de pruebas avanzada. No se trata de una versión para desarrolladores ni de un análisis del APK; apareció en la interfaz en vivo.

Tres posibles interpretaciones: lo que realmente podría ser 'Omni'.

No disponemos de detalles arquitectónicos, cifras de referencia ni una declaración oficial. Pero la filtración respalda tres interpretaciones, cada una progresivamente más transformadora.

1. Un nuevo contenedor Veo

La explicación menos disruptiva: Omni es simplemente el nuevo nombre del producto para la pestaña de video de Gemini, con Veo 3.x o Veo 4 Todavía se está realizando el trabajo de generación real en segundo plano. La consolidación de la marca bajo un único nombre nativo de Gemini, similar a como Nano Banana se ubica en Gemini 3 / 3.1 Flash Image para imágenes fijas, explicaría por qué aparece una cadena de texto visible para el público.

2. Un nuevo modelo de vídeo entrenado por Géminis

Es posible que Google haya desarrollado un modelo de vídeo completamente nuevo, desarrollado internamente bajo el paraguas de Gemini, para que funcione junto con Veo o lo reemplace. La actual división —Veo para vídeo y Nano Banana/Gemini para imágenes— resulta arquitectónicamente compleja. Omni podría ser el resultado de unificar estos flujos de trabajo, con su propia arquitectura y perfil de referencia, distintos de los de Veo 3.1.

3. Un verdadero modelo omnicanal: un único sistema para imagen, vídeo y mucho más.

La lectura más ambiciosa, y la que nombre prácticamente exige: un único modelo omni-Gemini que maneje la generación de imágenes, la generación de video y posiblemente audio en el mismo sistema, de la forma en que GPT-4o está posicionado para texto-imagen-audio, pero con salida de vídeo nativa.

Si la opción 3 es correcta, Gemini Omni sería el primer modelo omnidireccional de gama alta con salida de vídeo de cualquier proveedor importante de IA. Se trata de un avance significativo. Los modelos de vídeo más avanzados actualmente —Veo 3.1, Seedance 2.0, Kling 3.0— son generadores de vídeo especializados. No gestionan de forma nativa la creación de imágenes ni el análisis de texto.

La cadena filtrada no permite distinguir entre estas tres posibilidades. Pero solo la opción 3 justifica un nombre público completamente nuevo como 'Omni' en lugar de simplemente actualizar el número de versión de Veo.

¿Generará Google Gemini vídeos de forma nativa?

Sí, Gemini ya genera vídeos a través de su integración con Veo 3.1. La pregunta que plantea Omni es si Google está pasando de un estrategia de modelo dividido (Veo para vídeo, modelos Nano Banana para imágenes, Gemini para texto) a un modelo unificado que gestiona todas las modalidades en un solo sistema.

Actualmente, el flujo de generación de vídeo de Gemini se denomina «Powered by Veo 3.1», mientras que la generación de imágenes está vinculada a Nano Banana 2 y Nano Banana Pro. Google describe Nano Banana Pro como basado en Gemini 3 y Nano Banana 2 como Gemini 3.1 Flash Image. La nomenclatura por sí sola evidencia la fragmentación del enfoque actual.

Un modelo Omni unificado podría ofrecer ventajas concretas:

  • Calidad uniforme en todas las modalidades — Un único modelo entrenado con texto, imágenes y vídeo mantendría la coherencia estilística al generar una imagen para el guion gráfico y luego animarla para convertirla en vídeo.
  • Flujos de trabajo creativos más sencillos — No se permite alternar entre los modelos de imagen y vídeo. Una sola indicación puede generar una secuencia coherente de imagen y vídeo.
  • Mejor comprensión inmediata — Un modelo que comprenda tanto los conceptos visuales como los temporales podría producir vídeos más precisos a partir de descripciones de texto complejas.
  • Posibles ahorros de costes — Mantener un único modelo grande en lugar de varios especializados podría reducir los costes de infraestructura a la escala de Google.

Gemini Omni frente al panorama de la generación de vídeo mediante IA en 2026

La generación de vídeo es actualmente la categoría más competitiva en IA generativa. Si Omni se lanza en Google I/O 2026, entrará en un mercado saturado y en constante evolución. Así es como se encuentran los principales actores a mayo de 2026:

ModeloCompañíaPuntos fuertes claveEstado (mayo de 2026)
Veo 3.1GoogleTrabajo de cámara cinematográfico, sincronización audiovisualVive en Géminis, con restricciones regionales.
Semillas 2.0ByteDanceLo mejor de los benchmarks públicos, variantes Fast/Turbo, usabilidad comercial 90%+Disponible públicamente
HappyHorse-1.0AlibabaObtuvo #1 en Artificial Analysis Video Arena (ELO 1411).Disponible públicamente
Wan 2.7AlibabaTexto/imagen/vídeo/edición + movimiento sincronizado con audio a 1080pDisponible públicamente
Kling V3.0KuaishouVariantes Std/Pro/O3, ingresos mensuales de más de 20 millones de dólares ($).Disponible públicamente
Sora 2IA abiertaVariante Pro para mayor resolución.Solo API (la aplicación para consumidores se cerrará el 29 de abril de 2026).
Vídeo de GrokxIAIntegración estrecha con X y Twitter, distribución prioritaria en redes sociales.Ampliación de capacidades
HailuoMiniMaxGran coherencia de los personajes, movimiento fluido.Compitiendo en el mercado chino

Seedance 2.0 de ByteDance Actualmente, se sitúa a la cabeza de la mayoría de los rankings públicos, y sus variantes Fast y Turbo hacen que el vídeo cinematográfico con IA sea financieramente viable para la producción a gran escala. HappyHorse-1.0 de Alibaba superó brevemente a Seedance en la clasificación de Artificial Analysis Video Arena con un ELO de 1411.

Lo que diferenciaría a Omni de todos estos es la parte "omni". Cada uno de los modelos mencionados anteriormente es un generador de vídeo especializado. Ninguno de ellos también se encarga de la creación de imágenes ni del razonamiento textual. Si Gemini Omni realmente unifica estas capacidades, ocupa una categoría única.

¿Dónde se celebrará Google I/O 2026 y cuándo tendrá lugar?

Google I/O 2026 se celebrará del 19 al 20 de mayo de 2026. El evento es la conferencia anual de desarrolladores de Google, que tradicionalmente se celebra en el Shoreline Amphitheatre de Mountain View, California. Gemini y las novedades más amplias sobre IA son temas confirmados para la presentación principal.

La filtración de Omni, que apareció exactamente dos semanas antes del evento, sigue un patrón bien establecido. El ciclo de filtraciones de Google previo al E/S suele incluir cadenas de texto de la interfaz de usuario y análisis de APK que aparecen entre dos y cuatro semanas antes de la presentación principal, lo que da tiempo a la comunidad para especular antes del anuncio oficial.

Dicho esto, ya se han enviado cadenas de interfaz de usuario sin lanzamientos de productos. La interpretación más defendible de esta filtración es la siguiente: Google tiene un producto de vídeo llamado Omni en la fase final de desarrollo en Gemini, y la fecha más probable para su lanzamiento es entre el 19 y el 20 de mayo.

¿Google lanzará un nuevo modelo de IA, Gemini 3?

Se reportaron filtraciones adicionales por Pankaj Kumar sugieren que Google está probando nuevas versiones de Gemini, específicamente Géminis 3.2 y Géminis 3.5 — centrados en un rendimiento más rápido. Estos son independientes de la fuga de Omni, pero forman parte de la misma oleada de pruebas previas a la E/S.

Otras características detectadas en las pruebas incluyen:

  • Función de memoria 'Teamfood' — Contexto de chat a largo plazo que persiste entre sesiones
  • 'Spark Robin' — un nombre en clave de modelo visual que ha aparecido junto a Omni en referencias de pruebas
  • Gemini 3.1 Flash-Lite — Ya disponible para el público general desde el 8 de mayo de 2026.

La estrategia de modelos de Google para 2026 parece ser un enfoque de dos vías: actualizaciones incrementales de la versión Gemini (3.1 → 3.2 → 3.5) para el modelo de lenguaje principal, y un posible salto arquitectónico con Omni para la generación multimodal.

¿Google Veo 3 es gratuito?

Veo 3.1 — la versión actual — está disponible a través de Gemini pero ha sido restringido y con acceso restringido por regiónGemini ofrece acceso gratuito para la generación básica de vídeo, pero para obtener resultados de mayor resolución y tiempos de generación más prolongados se requiere una suscripción a Gemini Advanced.

Si Omni reemplaza a Veo 3.1, el modelo de precios podría cambiar. Históricamente, Google ha ofrecido nuevas funciones de IA con una estructura freemium: acceso básico gratuito y funciones premium mediante suscripción. Prevemos un enfoque similar para Omni si se presenta en el I/O.

Plataformas de terceros como WaveSpeed AI ya alojan Veo 3.1 y planean agregar cualquier nuevo modelo de video Gemini poco después de su lanzamiento público, con precios por segundo que pueden ser más rentables para cargas de trabajo de producción.

La controversia del Gemini Nano: una advertencia sobre los despliegues silenciosos de IA.

Si bien la filtración de Omni genera entusiasmo, las prácticas de implementación de IA de Google también han recibido críticas en 2026. Una historia aparte pero relacionada: Google Chrome ha estado descargando discretamente un modelo de IA de 4 GB llamado Gemini Nano en los dispositivos de los usuarios sin pedir permiso.

El archivo, llamado weights.bin, se encuentra en el directorio del perfil de usuario de Chrome y habilita funciones del dispositivo como "Ayúdame a escribir" y la detección de estafas. Los usuarios no encuentran ninguna casilla para desactivar esta función. Cuando los usuarios eliminan el archivo, Chrome vuelve a descargar automáticamente el paquete completo de 4 GB.

A escala global, el coste medioambiental de implementar 4 GB en cientos de millones de dispositivos se estima entre 6.000 y 60.000 toneladas de emisiones equivalentes de CO2. En muchas partes del mundo, los planes de datos móviles consideran 4 GB como la totalidad de la asignación mensual.

La Directiva sobre privacidad electrónica prohíbe almacenar información en el dispositivo del usuario sin su consentimiento previo. Chrome funciona perfectamente sin un sistema de gestión de privacidad local (LLM) en el dispositivo, por lo que no se aplica la excepción de "estrictamente necesario". Esta controversia merece atención, ya que Google se prepara para anunciar funciones de IA aún más ambiciosas en el I/O.

Cómo realizar un seguimiento y análisis eficiente de los desarrollos de Gemini Omni

Si sigues la historia de Gemini Omni a través de múltiples fuentes (TestingCatalog, hilos de X/Twitter, blogs de tecnología, la propia documentación de Google), el volumen de información puede ser abrumador. He estado usando iWeaver agrupar y estructurar estas filtraciones en una cronología coherente.

iWeaver es un agente de IA para flujos de trabajo de oficina que procesa texto, imágenes y documentos sin necesidad de instrucciones complejas. Le proporciono capturas de pantalla filtradas, artículos de la competencia y comunicados oficiales de Google, y genera resúmenes estructurados en formato .doc/.pdf. Para quienes siguen de cerca las noticias sobre IA en decenas de fuentes, elimina por completo el ciclo manual de copiar, pegar y organizar.

Qué significaría el lanzamiento de Gemini Omni para creadores y desarrolladores

Si Google lanza Omni en el I/O 2026, las implicaciones prácticas se desglosan según el público objetivo:

Para creadores de contenido

  • Un modelo unificado implica generar una imagen en miniatura y un vídeo correspondiente a partir de la misma solicitud, con un estilo coherente.
  • Se acabó el tener que cambiar entre Veo para vídeo y Nano Banana para imágenes.
  • Potencial para la generación de audio en el mismo proceso (si Omni realmente cubre todas las modalidades).

Para desarrolladores

  • Un único punto final de API para la generación multimodal simplifica la integración.
  • Plataformas como WaveSpeed AI planean exponer Omni a través del mismo patrón de punto final compatible con OpenAI que utilizan para Veo 3.1, Seedance 2.0 y Sora 2.
  • Las pruebas A/B de Omni frente a modelos especializados se vuelven sencillas.

Para equipos empresariales

  • Gestión consolidada de facturación y modelos bajo un mismo paraguas de Gemini.
  • Se reduce la complejidad del proveedor si un modelo gestiona lo que antes requería tres.
  • Posibles ahorros de costes gracias a una infraestructura unificada

¿Cuándo se espera la presentación oficial?

El plazo es ajustado. Google I/O 2026 abre sus puertas. 19 de mayoLa cadena de la interfaz de usuario Omni apareció 2 de mayoUn patrón de filtraciones previas a la OPI que revelan nuevos nombres públicos es coherente con una revelación durante la presentación principal.

Basándonos en años anteriores, prevemos lo siguiente:

  1. Discurso principal del 19 de mayo — Anuncio oficial con vídeo de demostración
  2. El mismo día o al día siguiente. — Documentación para desarrolladores y acceso a la API para suscriptores de Gemini Advanced
  3. En 1-2 semanas — Disponibilidad de plataformas de terceros (WaveSpeed AI, Oimi y otras)
  4. En el plazo de 1 mes — despliegue más amplio que incluya acceso gratuito
Consideren todo esto como especulación hasta que Google lo confirme públicamente. La interpretación más plausible es la siguiente: Google tiene un producto de vídeo llamado Omni en fase avanzada de desarrollo, y el periodo de lanzamiento más probable es en las próximas dos semanas.

Preguntas frecuentes

¿Qué es Gemini Omni?

Gemini Omni es un modelo de IA de Google filtrado, descubierto en la interfaz de usuario de generación de vídeo de Gemini en mayo de 2026. Podría tratarse de un modelo unificado capaz de generar texto, imágenes y vídeo en un único sistema, lo que potencialmente reemplazaría a los modelos de vídeo Veo 3.1 y de imagen Nano Banana actuales de Google.

¿Dónde se celebrará Google I/O 2026?

Google I/O 2026 se celebrará del 19 al 20 de mayo de 2026, durante la conferencia anual de desarrolladores de Google, que tradicionalmente tiene lugar en el Shoreline Amphitheatre de Mountain View, California. Las novedades sobre Gemini y la IA están confirmadas como puntos del programa.

¿Google Veo 3 es gratuito?

Veo 3.1 está disponible a través de Gemini con acceso gratuito limitado. Para obtener imágenes de mayor resolución y funciones de generación avanzadas, se requiere una suscripción a Gemini Advanced. Si Omni reemplaza a Veo 3.1, es probable que Google mantenga una estructura de precios freemium similar.

¿Generará vídeos Google Gemini?

Sí. Gemini ya genera vídeos mediante la integración con Veo 3.1. La filtración de Gemini Omni sugiere que Google podría estar incorporando la generación de vídeo nativa directamente en el modelo Gemini, en lugar de depender de un sistema Veo independiente.

¿Google lanzará un nuevo modelo de IA, Gemini 3?

Según filtraciones, Google está probando Gemini 3.2 y Gemini 3.5 junto con el modelo Omni. Gemini 3.1 Flash-Lite ya se lanzó para disponibilidad general el 8 de mayo de 2026. Se esperan anuncios importantes en Google I/O 2026, que se celebrará del 19 al 20 de mayo.

¿Cómo se compara Gemini Omni con Seedance 2.0?

Seedance 2.0 de ByteDance actualmente lidera la mayoría de los benchmarks públicos de generación de video con una usabilidad comercial superior a 90%. El elemento diferenciador de Gemini Omni sería la generación multimodal unificada —que maneja texto, imágenes y video en un solo modelo—, algo que ningún generador de video especializado ofrece actualmente.

¿Qué pasó con OpenAI Sora 2?

OpenAI cerró la aplicación para consumidores de Sora 2 el 29 de abril de 2026. El modelo sigue estando disponible únicamente mediante acceso API, con una variante Pro para una salida de mayor resolución.

¿Cuál es el nombre en clave del Tucán en Géminis?

Toucan es el nombre en clave interno de Google para la ruta de generación de vídeo actual basada en Veo-3.1 dentro de Gemini. La cadena de Omni UI apareció junto a las referencias a Toucan, lo que sugiere que podría ser un reemplazo o sucesor.