Gemini Omni è un modello di generazione video di Google trapelato e individuato nell'interfaccia utente di Gemini in vista del Google I/O 2026 (19-20 maggio). Le prove suggeriscono che potrebbe essere il primo modello omnidirezionale di alto livello con output video nativo, potenzialmente in grado di sostituire Veo 3.1 e unificare la generazione di immagini, video e testo sotto un unico sistema Gemini.
Cos'è il modello Gemini Omni Video trapelato prima del Google I/O 2026?
Il 2 maggio 2026, un utente X di nome @Thomas16937378 Ho scoperto una stringa dell'interfaccia utente nella scheda di generazione video Gemini di Google che recitava: 'Inizia con un'idea o prova un modello. Powered by Omni.' TestingCatalog, un sito affidabile che monitora le fughe di notizie sull'IA di Google, ha rapidamente individuato la scoperta e pubblicato un rapporto che si è diffuso nella comunità dell'IA nel giro di poche ore.
IL Modello video Gemini Omni Il riferimento è apparso proprio accanto a 'Toucan', il nome in codice interno per l'attuale percorso di generazione video di Google basato su Veo-3.1 all'interno di Gemini. Due settimane prima Google I/O 2026 Con l'apertura prevista per il 19-20 maggio, è difficile liquidare tale collocazione come semplice rumore di fondo.
Seguo la strategia di Google per i video generativi sin dal lancio di Veo, ed è la prima volta che un nome di prodotto completamente nuovo, rivolto al pubblico, compare nella scheda video. Gli aggiornamenti precedenti — Veo 2, Veo 3, Veo 3.1 — hanno tutti mantenuto il marchio Veo. "Omni" indica qualcosa di strutturalmente diverso.
"Se Google intende rilasciare Gemini Omni per la generazione di video, è probabile che superi le prestazioni di Veo 3.1." — Catalogo dei test
Cosa è stato effettivamente individuato nell'interfaccia utente di Gemini?
L'intera prova è costituita da un singolo screenshot, ma i dettagli contano. Due elementi elevano questo caso al di là di un semplice riferimento casuale al codice:
- La stringa è visibile agli utentiNon sepolto nel codice sorgente o nascosto dietro flag di funzionalità. Il testo dell'interfaccia utente che include un nome di marca in genere raggiunge questo stato solo quando un team si sta preparando per un rilascio pubblico.
- La posizione è accanto a 'Toucan', il nome in codice interno di Google per l'attuale strumento di generazione video basato su Veo. Il nuovo codice affiancato a un flusso di produzione esistente è la procedura standard prima di una sostituzione.
Un profilo appena creato nella scheda video di Gemini ha mostrato la dicitura "Powered by Omni", suggerendo che la funzionalità sia in fase di test avanzata. Non si tratta di una build per sviluppatori o di un'analisi di un APK, bensì di un'immagine apparsa direttamente nell'interfaccia di gioco.
Tre possibili interpretazioni: cosa potrebbe essere realmente "Omni"
Non disponiamo di dettagli architettonici, dati di riferimento o una dichiarazione ufficiale. Tuttavia, la fuga di notizie avvalora tre interpretazioni, ognuna delle quali progressivamente più trasformativa.
1. Un nuovo involucro Veo
La spiegazione meno sconvolgente: Omni è semplicemente il nuovo nome del prodotto per la scheda video di Gemini, con Veo 3.x o Veo 4 continua a svolgere il lavoro di generazione effettivo dietro le quinte. Il consolidamento del marchio sotto un unico nome nativo di Gemini, simile a come Nano Banana si trova su Gemini 3 / 3.1 Flash Image per le immagini fisse, spiegherebbe perché appare una stringa rivolta al pubblico.
2. Un nuovo modello video addestrato secondo il metodo dei Gemelli
Google potrebbe aver sviluppato un modello video interno completamente nuovo sotto l'egida di Gemini, destinato ad affiancare o sostituire Veo. L'attuale suddivisione – Veo per i video, Nano Banana/Gemini per le immagini – risulta architettonicamente complessa. Omni potrebbe essere il risultato dell'unificazione di queste pipeline, con una propria architettura e un profilo di benchmark distinti da Veo 3.1.
3. Un vero modello omnidirezionale: un unico sistema per immagini + video + altro
La lettura più ambiziosa, e quella nome praticamente richiede: un singolo modello Gemini omni che gestisca la generazione di immagini, la generazione di video e possibilmente l'audio nello stesso sistema, come GPT-4o è posizionato per testo-immagine-audio, ma con uscita video nativa.
Se l'opzione 3 è corretta, Gemini Omni sarebbe il primo modello omnidirezionale di fascia alta con uscita video di un importante fornitore di intelligenza artificiale. Si tratta di un importante traguardo. Gli attuali modelli video all'avanguardia — Veo 3.1, Seedance 2.0, Kling 3.0 — sono tutti generatori video specializzati. Non gestiscono nativamente la creazione di immagini o il ragionamento testuale.
La stringa trapelata non permette di distinguere tra queste tre possibilità. Ma solo l'opzione 3 giustifica un nome pubblico completamente nuovo come "Omni" piuttosto che un semplice incremento del numero di versione di Veo.
Google Gemini genererà video in modo nativo?
Sì, Gemini genera già video tramite la sua integrazione con Veo 3.1. La domanda che Omni solleva è se Google si sta spostando da un strategia del modello diviso (Veo per i video, modelli Nano Banana per le immagini, Gemini per il testo) a un modello unificato che gestisce tutte le modalità in un unico sistema.
Oggi, il flusso di generazione video di Gemini è etichettato come "Powered by Veo 3.1", mentre la generazione di immagini è legata a Nano Banana 2 e Nano Banana Pro. Google descrive Nano Banana Pro come basato su Gemini 3 e Nano Banana 2 come Gemini 3.1 Flash Image. Già solo la nomenclatura dimostra quanto sia frammentato l'approccio attuale.
Un modello Omni unificato potrebbe offrire vantaggi concreti:
- Qualità costante tra le diverse modalità — un singolo modello addestrato su testo, immagini e video manterrebbe la coerenza stilistica durante la generazione di un'immagine per lo storyboard e la successiva animazione in video.
- Flussi di lavoro creativi più semplici — nessuna possibilità di passare dalla modalità immagine a quella video. Un singolo comando può generare una sequenza coerente di immagini e video.
- Migliore comprensione immediata — un modello in grado di comprendere sia i concetti visivi che quelli temporali potrebbe produrre video più accurati a partire da descrizioni testuali complesse.
- Potenziali risparmi sui costi — Mantenere un unico modello di grandi dimensioni anziché diversi modelli specializzati potrebbe ridurre i costi infrastrutturali su scala Google.
Gemini Omni a confronto con il panorama della generazione di video tramite intelligenza artificiale nel 2026
La generazione video è attualmente la categoria più competitiva nell'ambito dell'intelligenza artificiale generativa. Se Omni verrà lanciato al Google I/O 2026, entrerà in un settore affollato e in rapida evoluzione. Ecco una panoramica dei principali attori del mercato a maggio 2026:
| Modello | Azienda | Punti di forza chiave | Stato attuale (maggio 2026) |
|---|---|---|---|
| Veo 3.1 | Riprese cinematografiche, sincronizzazione audiovisiva | Vivi in Gemini, regione limitata | |
| Danza dei semi 2.0 | ByteDance | Al vertice dei benchmark pubblici, varianti Fast/Turbo, usabilità commerciale 90%+ | Disponibile al pubblico |
| HappyHorse-1.0 | Alibaba | Ha ottenuto #1 su Artificial Analysis Video Arena (ELO 1411) | Disponibile al pubblico |
| Wan 2.7 | Alibaba | Testo/immagine/video/modifica + movimento sincronizzato con l'audio a 1080p | Disponibile al pubblico |
| Kling V3.0 | Kuaishou | Varianti Std/Pro/O3, oltre $20M di fatturato mensile | Disponibile al pubblico |
| Sora 2 | OpenAI | Variante Pro per una risoluzione più elevata | Solo API (l'applicazione per i consumatori è stata disattivata il 29 aprile 2026) |
| Grok Video | xAI | Stretta integrazione tra X e Twitter, distribuzione incentrata sui social. | Capacità di espansione |
| Hailuo | MiniMax | Caratterizzazione dei personaggi forte e fluida nei movimenti | Competere nel mercato cinese |
Seedance 2.0 di ByteDance Attualmente si posiziona al vertice della maggior parte dei benchmark pubblici, con le varianti Fast e Turbo che rendono i video cinematografici basati sull'IA economicamente sostenibili per le produzioni ad alto volume. HappyHorse-1.0 di Alibaba ha brevemente superato Seedance nella classifica di Artificial Analysis Video Arena con un ELO di 1411.
Ciò che distinguerebbe Omni da tutti questi è la parte "omni". Ciascuno dei modelli sopra elencati è un generatore video specializzato. Nessuno di questi gestisce anche la creazione di immagini o il ragionamento testuale. Se Gemini Omni unifica davvero queste funzionalità, si colloca in una categoria a sé stante.
Dove si terrà Google I/O 2026 e quando?
Google I/O 2026 si terrà dal 19 al 20 maggio 2026. L'evento è la conferenza annuale per sviluppatori di Google, che storicamente si tiene allo Shoreline Amphitheatre di Mountain View, in California. Gemini e gli aggiornamenti più generali sull'intelligenza artificiale sono confermati come argomenti in agenda per il keynote.
La tempistica della fuga di notizie su Omni, emersa esattamente due settimane prima dell'evento, segue uno schema ben consolidato. Il ciclo di fughe di notizie pre-I/O di Google prevede in genere la comparsa di stringhe dell'interfaccia utente e analisi degli APK 2-4 settimane prima del keynote, dando alla community il tempo di speculare prima della presentazione ufficiale.
Detto questo, le stringhe dell'interfaccia utente sono già state rilasciate senza il lancio del prodotto. L'interpretazione più plausibile di questa fuga di notizie è la seguente: Google ha un prodotto video chiamato Omni in fase avanzata di test su Gemini, e la finestra temporale più plausibile per il lancio è il 19-20 maggio.
Google rilascerà un nuovo modello di intelligenza artificiale Gemini 3?
Ulteriori perdite segnalate da Pankaj Kumar suggeriscono che Google stia testando nuove versioni di Gemini, in particolare Gemini 3.2 e Gemini 3.5 — focalizzati su prestazioni più veloci. Questi sono separati dalla fuga di notizie Omni, ma fanno parte della stessa ondata di test pre-I/O.
Tra le altre caratteristiche individuate durante i test figurano:
- Funzione di memoria 'Teamfood' — contesto di chat a lungo termine che persiste tra le sessioni
- 'Spark Robin' — un nome in codice del modello visivo che è apparso insieme a Omni nei riferimenti di test
- Gemini 3.1 Flash-Lite — già disponibile al pubblico dall'8 maggio 2026
La strategia di Google per il 2026 sembra basarsi su un duplice approccio: aggiornamenti incrementali di Gemini (3.1 → 3.2 → 3.5) per il modello linguistico principale e un potenziale salto architetturale con Omni per la generazione multimodale.
Google Veo 3 è gratuito?
Veo 3.1 — la versione attuale — è disponibile tramite Gemini ma è stata accesso limitato e restrizioni regionaliL'accesso gratuito a Gemini consente la generazione di video di base, ma per ottenere output a risoluzione più elevata e tempi di generazione più lunghi è necessario un abbonamento a Gemini Advanced.
Se Omni sostituirà Veo 3.1, il modello di prezzo potrebbe cambiare. Google ha storicamente offerto nuove funzionalità di intelligenza artificiale con una struttura freemium: accesso base gratuito, funzionalità premium a pagamento. Ci aspettiamo un approccio simile per Omni se verrà lanciato all'I/O.
Piattaforme di terze parti come WaveSpeed AI ospitano già Veo 3.1 e prevedono di aggiungere qualsiasi nuovo modello video Gemini poco dopo il rilascio pubblico, con prezzi al secondo che possono risultare più convenienti per i carichi di lavoro di produzione.
La controversia su Gemini Nano: un monito sulle implementazioni silenziose dell'IA.
Mentre la fuga di notizie su Omni genera entusiasmo, le pratiche di implementazione dell'IA di Google hanno anche attirato critiche nel 2026. Una storia separata ma correlata: Google Chrome ha scaricato silenziosamente un modello di intelligenza artificiale da 4 GB chiamato Gemini Nano sui dispositivi degli utenti senza chiedere il permesso.
Il file, denominato weights.bin, si trova nella directory del profilo utente di Chrome e alimenta funzionalità del dispositivo come "Aiutami a scrivere" e il rilevamento delle truffe. Gli utenti non trovano alcuna casella di controllo per disattivarlo. Quando gli utenti eliminano il file, Chrome scarica automaticamente di nuovo l'intero pacchetto da 4 GB.
Su scala globale, il costo ambientale derivante dalla distribuzione di 4 GB di memoria a centinaia di milioni di dispositivi è stimato tra le 6.000 e le 60.000 tonnellate di emissioni equivalenti di CO2. In molte parti del mondo, i piani dati per dispositivi mobili considerano 4 GB come l'intera quota mensile.
La direttiva ePrivacy vieta la memorizzazione di informazioni sul dispositivo di un utente senza il suo previo consenso. Chrome funziona perfettamente anche senza un LLM (Local Learning Manager) installato sul dispositivo, quindi non si applica alcuna esenzione per "strettamente necessario". Vale la pena seguire questa controversia, dato che Google si prepara ad annunciare funzionalità di intelligenza artificiale ancora più ambiziose all'evento I/O.
Come monitorare e analizzare in modo efficiente gli sviluppi di Gemini Omni
Se segui la storia di Gemini Omni attraverso diverse fonti — TestingCatalog, thread X/Twitter, blog tecnologici, la documentazione di Google — la quantità di informazioni può essere travolgente. Ho utilizzato iWeaver per aggregare e strutturare queste fughe di notizie in una cronologia coerente.
iWeaver è un agente di intelligenza artificiale per i flussi di lavoro d'ufficio che gestisce testo, immagini e documenti senza richiedere istruzioni complesse. Gli fornisco screenshot non elaborati di fughe di notizie, articoli della concorrenza e annunci ufficiali di Google, e lui genera riepiloghi strutturati in formato .doc/.pdf. Per chiunque segua le notizie in rapida evoluzione sull'IA da decine di fonti, elimina completamente il ciclo manuale di copia-incolla-organizzazione.
Cosa significherebbe il lancio di Gemini Omni per creatori e sviluppatori
Se Google lancerà Omni all'I/O 2026, le implicazioni pratiche si suddivideranno in base al pubblico di riferimento:
Per i creatori di contenuti
- Un modello unificato significa generare un'immagine in miniatura e un video corrispondente a partire dallo stesso input, con uno stile coerente.
- Niente più passaggi tra Veo per i video e Nano Banana per le immagini.
- Possibilità di generazione audio nella stessa pipeline (se Omni copre davvero tutte le modalità)
Per gli sviluppatori
- Un singolo endpoint API per la generazione multimodale semplifica l'integrazione
- Piattaforme come WaveSpeed AI prevedono di esporre Omni tramite lo stesso schema di endpoint compatibile con OpenAI che utilizzano per Veo 3.1, Seedance 2.0 e Sora 2.
- Eseguire test A/B su Omni rispetto a modelli specializzati diventa semplice
Per i team aziendali
- Gestione unificata della fatturazione e dei modelli sotto l'ombrello di Gemini.
- Riduzione della complessità dei fornitori se un unico modello gestisce ciò che prima richiedeva tre modelli.
- Potenziali risparmi sui costi derivanti da un'infrastruttura unificata.
Quando aspettarsi la presentazione ufficiale
I tempi sono stretti. Google I/O 2026 si apre 19 maggio. La stringa Omni UI è emersa 2 maggioUn modello di fughe di notizie pre-IPO che rivelano nuovi nomi pubblici è coerente con una presentazione durante il keynote.
Sulla base degli anni precedenti, prevediamo:
- Discorso di apertura del 19 maggio — annuncio ufficiale con video dimostrativo
- Lo stesso giorno o il giorno successivo — documentazione per sviluppatori e accesso alle API per gli abbonati a Gemini Advanced
- Entro 1-2 settimane — disponibilità di piattaforme di terze parti (WaveSpeed AI, Oimi e altre)
- Entro 1 mese — implementazione più ampia, incluso l'accesso gratuito
Considerate tutto ciò come speculazione finché Google non lo confermerà ufficialmente. L'interpretazione più plausibile è la seguente: Google ha un prodotto video chiamato Omni in fase avanzata di sviluppo e il lancio più probabile è previsto nelle prossime due settimane.
Domande frequenti
Che cos'è Gemini Omni?
Gemini Omni è un modello di intelligenza artificiale di Google trapelato e scoperto nell'interfaccia utente di generazione video di Gemini nel maggio 2026. Potrebbe trattarsi di un modello unificato in grado di generare testo, immagini e video in un unico sistema, potenzialmente sostituendo gli attuali modelli video Veo 3.1 e di immagine Nano Banana di Google.
Dove si terrà Google I/O 2026?
Google I/O 2026 si terrà dal 19 al 20 maggio 2026, nell'ambito della conferenza annuale per sviluppatori di Google, tradizionalmente ospitata presso lo Shoreline Amphitheatre di Mountain View, in California. Gli aggiornamenti su Gemini e sull'intelligenza artificiale sono confermati come argomenti in programma.
Google Veo 3 è gratuito?
Veo 3.1 è disponibile tramite Gemini con accesso gratuito limitato. Output a risoluzione più elevata e funzionalità di generazione avanzate richiedono un abbonamento a Gemini Advanced. Se Omni sostituirà Veo 3.1, Google probabilmente manterrà una struttura di prezzi freemium simile.
Google Gemini genererà video?
Sì. Gemini genera già video tramite l'integrazione con Veo 3.1. La fuga di notizie su Gemini Omni suggerisce che Google potrebbe integrare la generazione nativa di video direttamente nel modello Gemini stesso, anziché affidarsi a una pipeline Veo separata.
Google rilascerà un nuovo modello Gemini 3 basato sull'intelligenza artificiale?
Secondo alcune indiscrezioni, Google starebbe testando Gemini 3.2 e Gemini 3.5 insieme al modello Omni. Gemini 3.1 Flash-Lite è già stato rilasciato in versione di disponibilità generale l'8 maggio 2026. Sono attesi importanti annunci al Google I/O 2026, che si terrà il 19 e 20 maggio.
Come si confronta Gemini Omni con Seedance 2.0?
Seedance 2.0 di ByteDance attualmente si posiziona al vertice della maggior parte dei benchmark pubblici per la generazione di video, con oltre 901 test di usabilità commerciale su 3T. Il punto di forza di Gemini Omni sarebbe la generazione multimodale unificata, in grado di gestire testo, immagini e video in un unico modello, una funzionalità attualmente offerta da nessun generatore video specializzato.
Che fine ha fatto OpenAI Sora 2?
OpenAI ha chiuso l'app consumer Sora 2 il 29 aprile 2026. Il modello rimane disponibile solo tramite accesso API, con una variante Pro per output a risoluzione più elevata.
Qual è il nome in codice di Toucan nella serie Gemini?
Toucan è il nome in codice interno di Google per l'attuale processo di generazione video basato su Veo-3.1 all'interno di Gemini. La stringa Omni UI è apparsa accanto ai riferimenti a Toucan, suggerendo che potrebbe trattarsi di un sostituto o di un successore.




