UN

Modèle vidéo omnidirectionnel Gemini présenté à Google I/O 2026 : tout ce que nous savons jusqu’à présent

image de couverture de gemini-omni-video-model-google-io-2026

Qu'est-ce que le modèle Gemini Omni Video qui a fuité avant Google I/O 2026 ?

Le 2 mai 2026, un utilisateur X nommé @Thomas16937378 J'ai découvert une chaîne de caractères dans l'interface utilisateur de l'onglet de génération vidéo Gemini de Google qui disait : « Commencez par une idée ou essayez un modèle. Propulsé par Omni. » TestingCatalog, un site fiable de suivi des fuites d'informations concernant l'IA de Google, a rapidement repéré la fuite et publié un rapport qui s'est répandu dans la communauté de l'IA en quelques heures.

Le Modèle vidéo Gemini Omni La référence est apparue juste à côté de « Toucan » — le nom de code interne du système de génération vidéo Veo-3.1 de Google au sein de Gemini. Deux semaines avant Google I/O 2026 Avec une ouverture prévue les 19 et 20 mai, il est difficile de considérer cette date comme un simple bruit de fond.

Je suis la stratégie de Google en matière de vidéo générative depuis le lancement initial de Veo, et c'est la première fois qu'un nom de produit totalement inédit apparaît dans l'onglet Vidéo. Les mises à jour précédentes (Veo 2, Veo 3 et Veo 3.1) conservaient toutes la marque Veo. « Omni » suggère une structure différente.

« Si Google prévoit de lancer Gemini Omni pour la génération vidéo, il est probable qu'il surpasse Veo 3.1. » — TestingCatalog

Qu'a-t-on réellement repéré dans l'interface utilisateur de Gemini ?

L'ensemble des preuves se résume à une simple capture d'écran, mais les détails sont importants. Deux éléments distinguent cette preuve d'une simple référence à un code :

  • La chaîne de caractères est visible par les utilisateurs., non pas enfouie dans le code source ni cachée derrière des indicateurs de fonctionnalités. Les textes d'interface utilisateur incluant une marque n'atteignent généralement cet état que lorsqu'une équipe prépare une publication publique.
  • L'emplacement est à côté de 'Toucan'.Il s'agit du nom de code interne connu de Google pour l'outil de génération vidéo actuel basé sur Veo. Le déploiement de nouveau code à proximité d'un flux de production existant est la pratique courante avant une migration.

Un profil récemment créé dans l'onglet vidéo de Gemini affichait la mention « Powered by Omni », ce qui laisse penser que la fonctionnalité est en phase finale de test. Il ne s'agit pas d'une version pour développeurs ni d'une analyse d'APK : la mention est apparue dans l'interface utilisateur.

Trois interprétations possibles : que pourrait être « Omni » ?

Nous ne disposons d'aucun détail d'architecture, d'aucun chiffre de référence, ni de déclaration officielle. Cependant, la fuite suggère trois interprétations, chacune étant de plus en plus révolutionnaire.

1. Un nouveau wrap Veo

L'explication la moins perturbatrice : Omni est tout simplement le nouveau nom du produit pour l'onglet vidéo de Gemini. Veo 3.x ou Veo 4 Le traitement de génération reste entièrement automatisé. Le regroupement des marques sous un nom unique dédié à Gemini — à l'instar de Nano Banana pour Gemini 3/3.1 Flash Image (images fixes) — expliquerait l'apparition de cette chaîne de caractères visible par le public.

2. Un nouveau modèle vidéo entraîné par Gemini

Il est possible que Google ait développé un tout nouveau modèle vidéo interne, sous l'égide de Gemini, destiné à compléter ou remplacer Veo. La séparation actuelle (Veo pour la vidéo, Nano Banana/Gemini pour les images) présente une architecture peu pratique. Omni pourrait résulter de l'unification de ces processus, avec une architecture et un profil de performance propres, distincts de ceux de Veo 3.1.

3. Un véritable modèle omnicanal : un système unique pour l’image, la vidéo et bien plus encore.

La lecture la plus ambitieuse, et celle que nom En pratique, cela exige : un seul modèle omnidirectionnel Gemini qui gère la génération d'images, la génération vidéo et éventuellement l'audio au sein d'un même système — à l'instar de GPT-4o pour le texte, l'image et l'audio, mais avec sortie vidéo native.

Si l'option 3 est correcte, Gemini Omni serait le premier modèle omnidirectionnel haut de gamme avec sortie vidéo provenant d'un fournisseur majeur d'IA. C'est une première significative. Les modèles vidéo les plus performants actuellement disponibles (Veo 3.1, Seedance 2.0, Kling 3.0) sont tous des générateurs vidéo spécialisés. Ils ne prennent pas en charge nativement la création d'images ni le traitement de texte.

La chaîne de caractères divulguée ne permet pas de trancher entre ces trois possibilités. Seule la troisième option justifie un nom public entièrement nouveau comme « Omni », plutôt qu'une simple incrémentation du numéro de version de Veo.

Google Gemini générera-t-il des vidéos nativement ?

Oui, Gemini génère déjà des vidéos grâce à son intégration avec Veo 3.1. La question soulevée par Omni est de savoir si Google passe d'un stratégie de modèle divisé (Veo pour la vidéo, Nano Banana pour les images, Gemini pour le texte) à un modèle unifié qui gère toutes les modalités dans un seul système.

Aujourd'hui, le flux de génération vidéo de Gemini est présenté comme « Optimisé par Veo 3.1 », tandis que la génération d'images est liée à Nano Banana 2 et Nano Banana Pro. Google décrit Nano Banana Pro comme étant basé sur Gemini 3 et Nano Banana 2 comme étant basé sur Gemini 3.1 Flash Image. Cette appellation à elle seule illustre la fragmentation de l'approche actuelle.

Un modèle Omni unifié pourrait offrir des avantages concrets :

  • Qualité constante pour toutes les modalités — Un modèle unique, entraîné sur du texte, des images et de la vidéo, permettrait de maintenir une cohérence stylistique lors de la génération d'une image de storyboard, puis de son animation en vidéo.
  • Des flux de travail créatifs plus simples — Pas de basculement entre les modèles image et vidéo. Une seule commande peut générer une séquence image + vidéo cohérente.
  • Meilleure compréhension des prompts — Un modèle capable de comprendre à la fois les concepts visuels et temporels pourrait produire des vidéos plus précises à partir de descriptions textuelles complexes.
  • gains d'efficacité potentiels — Le maintien d'un seul modèle de grande envergure au lieu de plusieurs modèles spécialisés pourrait réduire les coûts d'infrastructure à l'échelle de Google.

Gemini Omni face au paysage de la génération vidéo par IA en 2026

La génération vidéo est actuellement le secteur le plus concurrentiel de l'IA générative. Si Omni est lancé lors de Google I/O 2026, il entrera sur un marché saturé et en constante évolution. Voici un aperçu des principaux acteurs en mai 2026 :

ModèleEntreprisePrincipaux points fortsÉtat d'avancement (mai 2026)
Véo 3.1GooglePrise de vue cinématographique, synchronisation audiovisuelleVivez dans Gemini, zone géographique limitée
Seedance 2.0ByteDanceMeilleures performances sur les benchmarks publics, variantes Fast/Turbo, utilisation commerciale du 90%+Accessible au public
HappyHorse-1.0AlibabaA revendiqué #1 sur Artificial Analysis Video Arena (ELO 1411)Accessible au public
Wan 2.7AlibabaTexte/image/vidéo/modification + animation synchronisée avec l'audio en 1080pAccessible au public
Kling V3.0KuaishouVariantes Std/Pro/O3, $20M+ de revenus mensuelsAccessible au public
Sora 2OpenAIVersion Pro pour une résolution supérieureAccès via API uniquement (l'application grand public sera fermée le 29 avril 2026)
Vidéo GrokxAIIntégration étroite X/Twitter, distribution axée sur le socialDéveloppement des capacités
HailuoMiniMaxForte cohérence du caractère, mouvement fluideConcurrence sur le marché chinois

Seedance 2.0 de ByteDance Actuellement, HappyHorse-1.0 d'Alibaba domine la plupart des benchmarks publics, ses versions Fast et Turbo rendant la production de vidéos IA de qualité cinématographique financièrement viable pour les volumes importants. HappyHorse-1.0 a brièvement détrôné Seedance au classement de l'Artificial Analysis Video Arena avec un score ELO de 1411.

Ce qui différencierait Omni de tous ces autres produits, c'est le terme « omni ». Chaque modèle mentionné ci-dessus est un générateur vidéo spécialisé. Aucun d'eux ne gère la création d'images ni le raisonnement textuel. Si Gemini Omni réunit véritablement ces fonctionnalités, il sera unique en son genre.

Où se déroulera Google I/O 2026 et quand aura-t-il lieu ?

Google I/O 2026 se déroulera les 19 et 20 mai 2026. Cet événement est la conférence annuelle des développeurs de Google, qui se tient traditionnellement à l'amphithéâtre Shoreline de Mountain View, en Californie. Les présentations de Gemini et des mises à jour plus générales sur l'IA figurent parmi les points confirmés de la conférence d'ouverture.

La fuite d'Omni, survenue exactement deux semaines avant l'événement, suit un schéma bien établi. Le cycle de fuites de Google avant I/O se caractérise généralement par l'apparition de chaînes de caractères d'interface utilisateur et d'analyses d'APK deux à quatre semaines avant la conférence, laissant ainsi à la communauté le temps de spéculer avant la révélation officielle.

Cela dit, il est déjà arrivé que des chaînes d'interface utilisateur soient diffusées sans lancement de produit. L'interprétation la plus plausible de cette fuite : Google a un produit vidéo appelé Omni en phase finale de développement sur Gemini, et la fenêtre de lancement la plus plausible est le 19-20 mai.

Google va-t-il lancer un nouveau modèle d'IA, Gemini 3 ?

Des fuites supplémentaires ont été signalées par Pankaj Kumar Il semblerait que Google teste de nouvelles versions de Gemini, plus précisément. Gemini 3.2 et Gemini 3.5 — axés sur des performances accrues. Ces tests sont distincts de la fuite de données Omni, mais font partie de la même vague de tests pré-IO.

Parmi les autres fonctionnalités repérées lors des tests, on note :

  • Fonction mémoire « Teamfood » — contexte de conversation à long terme qui persiste d'une session à l'autre
  • « Rouge-gorge étincelant » — un nom de code de modèle visuel qui est apparu aux côtés d'Omni dans les références de tests
  • Gemini 3.1 Flash-Lite — déjà disponible pour tous depuis le 8 mai 2026

La stratégie de Google en matière de modèles en 2026 semble être une approche à deux volets : des mises à jour incrémentales de la version Gemini (3.1 → 3.2 → 3.5) pour le modèle de langage de base, et un saut architectural potentiel avec Omni pour la génération multimodale.

Google Veo 3 est-il gratuit ?

Veo 3.1 — la version actuelle — est disponible via Gemini, mais a été accès restreint et limité à certaines régionsL'accès gratuit existe pour la génération vidéo de base au sein de Gemini, mais les sorties à plus haute résolution et les temps de génération prolongés nécessitent un abonnement Gemini Advanced.

Si Omni remplace Veo 3.1, le modèle de tarification pourrait évoluer. Historiquement, Google a proposé ses nouvelles fonctionnalités d'IA selon un modèle freemium : accès de base gratuit, fonctionnalités premium accessibles par abonnement. Nous prévoyons une approche similaire pour Omni s'il est lancé lors de la conférence Io.

Des plateformes tierces comme WaveSpeed AI hébergent déjà Veo 3.1 et prévoient d'ajouter tout nouveau modèle vidéo Gemini peu après sa sortie publique, avec une tarification à la seconde qui peut être plus rentable pour les charges de travail de production.

La controverse Gemini Nano : une mise en garde concernant les déploiements d’IA silencieux

Si la fuite concernant Omni suscite l'enthousiasme, les pratiques de déploiement de l'IA de Google ont également fait l'objet de critiques en 2026. Un autre sujet, mais lié au précédent : Google Chrome a discrètement téléchargé un modèle d'IA de 4 Go appelé Gemini Nano sur les appareils des utilisateurs sans demander leur autorisation.

Le fichier, nommé weights.bin, se trouve dans le répertoire du profil utilisateur de Chrome et active des fonctionnalités telles que « Aide à la rédaction » et la détection des arnaques. Il n'existe aucune case à cocher pour désactiver cette fonctionnalité. Lorsqu'un utilisateur supprime le fichier, Chrome télécharge automatiquement l'intégralité du package de 4 Go.

À l'échelle mondiale, le coût environnemental du déploiement de 4 Go sur des centaines de millions d'appareils Chrome est estimé entre 6 000 et 60 000 tonnes d'émissions équivalentes en CO2. Dans de nombreuses régions du monde, les forfaits de données mobiles considèrent 4 Go comme la totalité du forfait mensuel.

La directive ePrivacy interdit le stockage d'informations sur l'appareil d'un utilisateur sans son consentement préalable. Chrome fonctionne parfaitement sans LLM embarqué, donc aucune exemption pour « stricte nécessité » ne s'applique. Cette controverse mérite d'être suivie de près, car Google s'apprête à annoncer des fonctionnalités d'IA encore plus ambitieuses lors de la conférence Io.

Comment suivre et analyser efficacement les développements Gemini Omni

Si vous suivez l'actualité de Gemini Omni à travers plusieurs sources (TestingCatalog, discussions X/Twitter, blogs techniques, documentation Google), le volume d'informations peut être accablant. J'utilise iWeaver agréger et structurer ces fuites en une chronologie cohérente.

iWeaver est un agent d'IA pour les flux de travail bureautiques qui traite textes, images et documents sans nécessiter de configuration complexe. Je lui fournis des captures d'écran de fuites, des articles de concurrents et des annonces officielles de Google, et il génère des résumés structurés au format doc/pdf. Pour quiconque suit l'actualité de l'IA en temps réel à travers des dizaines de sources, il élimine complètement la tâche manuelle de copier-coller et d'organisation.

Qu’impliquerait le lancement de Gemini Omni pour les créateurs et les développeurs ?

Si Google lance Omni lors de la conférence I/O 2026, les implications pratiques varieront selon le public :

Pour les créateurs de contenu

  • Un modèle unifié implique la génération d'une image miniature et d'une vidéo correspondante à partir de la même invite, avec un style cohérent.
  • Plus besoin de jongler entre Veo pour la vidéo et Nano Banana pour les images
  • Possibilité de génération audio dans le même pipeline (si Omni couvre réellement toutes les modalités)

Pour les développeurs

  • Un point de terminaison API unique pour la génération multimodale simplifie l'intégration
  • Des plateformes comme WaveSpeed AI prévoient d'exposer Omni via le même modèle de point de terminaison compatible OpenAI qu'elles utilisent pour Veo 3.1, Seedance 2.0 et Sora 2.
  • Les tests A/B d'Omni par rapport à des modèles spécialisés deviennent simples

Pour les équipes d'entreprise

  • Facturation consolidée et gestion des modèles sous une seule entité Gemini
  • Complexité réduite des fournisseurs si un seul modèle gère ce qui en nécessitait auparavant trois.
  • Économies potentielles grâce à une infrastructure unifiée

Quand peut-on s'attendre à la révélation officielle ?

Le calendrier est serré. Google I/O 2026 ouvre ses portes. 19 maiLa chaîne Omni UI est apparue. 2 maiLa multiplication des fuites pré-IO révélant de nouveaux noms publics est cohérente avec une annonce lors d'un discours d'ouverture.

En nous basant sur les années précédentes, nous prévoyons :

  1. Conférence inaugurale du 19 mai — Annonce officielle avec bande démo
  2. Le jour même ou le lendemain — Documentation développeur et accès API pour les abonnés Gemini Advanced
  3. Dans un délai de 1 à 2 semaines — disponibilité des plateformes tierces (WaveSpeed AI, Oimi et autres)
  4. Dans un délai d'un mois — un déploiement plus large incluant l'accès gratuit
Considérez tout cela comme de la pure spéculation tant que Google ne l'a pas confirmé officiellement. L'interprétation la plus plausible : Google possède un produit vidéo appelé Omni en phase finale de développement, et la fenêtre de lancement la plus probable se situe dans les deux prochaines semaines.

Questions fréquemment posées

Qu'est-ce que Gemini Omni ?

Gemini Omni est un modèle d'IA de Google qui a fuité et a été découvert dans l'interface utilisateur de génération vidéo de Gemini en mai 2026. Il pourrait s'agir d'un modèle unifié capable de générer du texte, des images et de la vidéo dans un seul système, remplaçant potentiellement le modèle vidéo Veo 3.1 et les modèles d'images Nano Banana actuels de Google.

Où se déroulera Google I/O 2026 ?

Google I/O 2026 se tiendra les 19 et 20 mai 2026, lors de la conférence annuelle des développeurs de Google, traditionnellement organisée au Shoreline Amphitheatre de Mountain View, en Californie. Les mises à jour concernant Gemini et l'IA sont confirmées au programme.

Google Veo 3 est-il gratuit ?

Veo 3.1 est disponible via Gemini avec un accès gratuit limité. Les sorties haute résolution et la génération étendue nécessitent un abonnement Gemini Advanced. Si Omni remplace Veo 3.1, Google conservera probablement une structure tarifaire freemium similaire.

Google Gemini générera-t-il des vidéos ?

Oui. Gemini génère déjà des vidéos grâce à l'intégration de Veo 3.1. La fuite concernant Gemini Omni suggère que Google pourrait intégrer la génération vidéo native directement dans le modèle Gemini, plutôt que de s'appuyer sur un pipeline Veo distinct.

Google va-t-il lancer un nouveau modèle d'IA, Gemini 3 ?

Des fuites indiquent que Google teste Gemini 3.2 et Gemini 3.5 en parallèle du modèle Omni. Gemini 3.1 Flash-Lite est déjà disponible pour tous depuis le 8 mai 2026. Des annonces importantes sont attendues lors de la Google I/O 2026, les 19 et 20 mai.

Comment Gemini Omni se compare-t-il à Seedance 2.0 ?

Seedance 2.0 de ByteDance domine actuellement la plupart des benchmarks publics de génération vidéo avec une capacité d'utilisation commerciale supérieure à 90%. Le principal atout de Gemini Omni résiderait dans sa génération multimodale unifiée — gérant texte, images et vidéo au sein d'un seul modèle — une fonctionnalité qu'aucun générateur vidéo spécialisé ne propose actuellement.

Qu'est-il arrivé à OpenAI Sora 2 ?

OpenAI a fermé l'application grand public Sora 2 le 29 avril 2026. Le modèle reste disponible uniquement via une API, avec une variante Pro pour une sortie en plus haute résolution.

Quel est le nom de code du Toucan dans Gemini ?

Toucan est le nom de code interne de Google pour le système de génération vidéo Veo-3.1 actuellement utilisé au sein de Gemini. La mention « Omni UI » est apparue à côté des références à Toucan, ce qui laisse penser qu'il pourrait s'agir d'un système de remplacement ou d'un successeur.