Input any-to-any di Gemini Omni Flash: cosa fa davvero
Il multimodale è la promessa distintiva di Gemini Omni Flash, ma l'API rilasciata è più ristretta del marketing. Ecco cosa cambia davvero l'input any-to-any nel brief.

La parola che ha fatto più fatica nel lancio di Gemini Omni Flash è stata «Omni» — la promessa di un unico modello a cui dare testo, immagini, audio e video tutti insieme, in un solo prompt. È una proposta genuinamente diversa dai modelli video a input singolo che l'hanno preceduta, ed è il motivo per cui il modello si merita il suo nome. Ma la versione arrivata nell'API per sviluppatori è più ristretta dell'inquadramento della keynote, e questo scarto conta se stai pianificando lavoro reale attorno ad essa.
Questo pezzo separa ciò che l'any-to-any ti offre davvero oggi da ciò che è ancora aspirazionale — e poi arriva al punto più utile, cioè come l'input multimodale cambia in generale il modo in cui scrivi un brief.
Cosa significa davvero «any-to-any»
La maggior parte dei modelli video accetta un solo tipo di guida. Scrivi testo, oppure fornisci una singola immagine di riferimento, e il modello lavora da lì. L'input any-to-any significa che un'unica grammatica di prompt accetta diverse modalità insieme e restituisce un risultato coerente che le rispetta tutte: un fotogramma di riferimento per l'aspetto, un breve clip per il movimento e una direzione scritta per tutto il resto — combinati, non scelti l'uno al posto dell'altro.
Lo spostamento va dal descrivere una ripresa a parole al comporla dagli asset. È questa la capacità reale, ed è il motivo per cui «multimodale» non è puro marketing. La domanda è quanta parte di questo sia attiva.
La promessa contro l'API rilasciata
Ecco la matrice onesta per la preview attuale, direttamente dalla documentazione dell'API:
| Input | Stato | Note |
|---|---|---|
| Prompt di testo | Supportato | La spina dorsale di ogni generazione |
| Immagine di riferimento | Supportato | Testo in video, immagine in video e riferimento del soggetto |
| Video di riferimento | Supportato, con una riserva | I riferimenti oltre i 3 secondi non vengono elaborati completamente |
| Riferimento audio | Non supportato | Non puoi caricare un suono o una voce da far abbinare al modello |
| Riferimenti video multipli | Non supportato | Un clip di riferimento per generazione |
| Prompt non in inglese | Non testato | L'inglese è l'unica lingua pienamente supportata |
Avviso
La lacuna audio è quella con maggiori probabilità di far inciampare un piano. Omni Flash genera una traccia audio in modo predefinito, ma «any-to-any» non include il fatto di consegnargli una base musicale, una voce fuori campo o una registrazione ambientale da sincronizzare. L'audio è un output che indirizzi con le parole, non un input che fornisci.
Quindi la lettura corretta: l'any-to-any oggi è testo + immagine + video in ingresso, video (con audio generato) in uscita. La metà audio-in-ingresso della promessa multimodale è deliberatamente trattenuta — coerentemente con le funzioni di modifica del parlato nel video e di avatar che Google ha tenuto da parte al lancio per ragioni di sicurezza. È un vero cambiamento di capacità rispetto ai modelli a input singolo; semplicemente non è ancora il quadro completo any-to-any-to-any che il nome lascia intendere.
Cosa cambia l'input multimodale nel brief
Una volta che componi dagli asset invece di descrivere in prosa, il brief stesso cambia forma. Tre input svolgono lavori diversi, e l'abilità sta nell'assegnare ciascuno a ciò per cui è più adatto:
- L'immagine di riferimento porta l'aspetto — il soggetto, la palette, l'inquadratura che già ti piacciono.
- Il video di riferimento porta il movimento — un movimento di camera o un'azione che vuoi riecheggiare.
- Il testo porta l'intento e tutto ciò che gli asset non mostrano già — atmosfera, cambiamenti, ciò che non è in nessuno dei due riferimenti.
L'effetto pratico è che smetti di provare a tradurre un'immagine in aggettivi. Invece di scrivere «un primo piano caldo a scarsa profondità con una lenta spinta in avanti», fornisci il fotogramma che ha già quell'aspetto e il clip che si muove già così, e spendi le parole su ciò che è nuovo. Per chiunque abbia lottato per descrivere a parole un'estetica specifica, è questo lo sblocco nel workflow.
Le quattro modalità di task, e come si combinano
L'API espone quattro tipi di task, e si mappano in modo netto sull'idea del comporre dagli asset:
text_to_video— pura descrizione, nessun asset. Il ripiego quando parti da zero.image_to_video— anima un fermo immagine. Il punto d'ingresso più comune: un'immagine forte diventa il primo fotogramma del movimento.reference_to_video— porta un soggetto o uno stile da un riferimento in una nuova generazione.edit— la modalità conversazionale e con stato che rivede il clip precedente preservando ciò che non hai cambiato.
Il flusso previsto le concatena: genera o anima una base con una delle prime tre, poi passa a edit e affina in modo conversazionale. È la stessa forma dell'abbinamento Nano Banana 2 Lite verso Omni Flash di Google stesso — modifica un fermo immagine, poi animalo — estesa lungo i turni.
La sfumatura audio, esplicitata
Poiché l'audio non può essere fornito, il sound design diventa un compito di scrittura. Il modello produce dialoghi, effetti e ambiente in base a ciò che il tuo prompt descrive — «pioggia leggera su una finestra, nessuna musica» oppure «un singolo click morbido, poi il tono ambiente della stanza». Ottieni un controllo significativo, ma è un controllo descrittivo, e questo significa due cose per la pianificazione:
- Se il tuo progetto ha bisogno che il video generato si abbini a una traccia esistente — un brano su licenza, un jingle di marca, una voce fuori campo registrata — quella sincronizzazione avviene in un passaggio audio separato, non dentro Omni Flash.
- Se ti serve solo un suono originale e adatto, descriverlo bene nel prompt ti porta là senza un caricamento.
Dove si colloca OmniArt oggi
Il workflow del comporre dagli asset non è qualcosa per cui devi aspettare Omni Flash per provarlo — funziona già sui modelli attivi nel workspace video di OmniArt, e per un aspetto vanno oltre.
Seedance 2.0, disponibile su OmniArt adesso, è stato costruito esattamente attorno a questa idea: accetta fino a nove immagini, tre clip video e — cosa notevole — tre file audio in un unico prompt, ciascuno legato a un ruolo con la sintassi @image1 / @video1 / @audio1. Questo include l'input di riferimento audio che Omni Flash trattiene. Se il tuo brief dipende dal fornire al modello un suono specifico con cui lavorare, quella strada esiste oggi.
E la direzione di marcia è chiara in tutto il campo: Seedance 2.5, annunciato a giugno, spinge la stessa architettura di riferimenti fino a ben 50 input multimodali in una volta. L'input any-to-any non è una storia di un singolo modello — è la direzione verso cui va il video AI diretto. Omni Flash ha dato un nome all'idea; il workspace ti lascia già praticarla.
Apri il workspace video su OmniArt, assembla il tuo set di riferimenti e lascia che gli asset portino l'aspetto e il movimento mentre le tue parole portano l'intento. È questo il brief any-to-any, disponibile ora.
Pronto a creare?
Inizia a generare contenuti straordinari con l’AI