guideTutorial e guide pratiche8 min di lettura

Come scrivere prompt per Gemini Omni Flash per video da 10 secondi

Gemini Omni Flash ha una superficie di prompt insolita: niente parametro negativo, due formati, solo inglese e due modalità di prompting distinte. Ecco come scriverle bene entrambe.

Team OmniArt
Come scrivere prompt per Gemini Omni Flash per video da 10 secondi

La maggior parte delle guide ai prompt per video AI ti insegna a scrivere una cosa sola: un paragrafo ricco e dettagliato che consegni al modello una volta. Gemini Omni Flash rompe questo presupposto. La sua API per sviluppatori (attiva dal 30 giugno) è costruita attorno a due atti di prompting diversi — la prima generazione, e poi una conversazione continua di modifiche che rimodellano ogni volta lo stesso clip. Scrivi per una e ignora l'altra e lasci la maggior parte del modello inutilizzata.

Anche la superficie di prompt di Omni Flash è insolita per ciò che toglie. Non c'è un campo per il prompt negativo, non c'è una manopola per la temperatura, non c'è un'istruzione di sistema, e ci sono solo due formati. Non sono lacune da aggirare alla cieca — ognuna cambia il modo in cui dovresti formulare un prompt. Questa guida copre entrambe le modalità e i vincoli che le plasmano.

Nota

Al 1° luglio 2026, Gemini Omni Flash è disponibile tramite Google AI Studio, la Gemini API, l'app Gemini e Google Flow — non ancora all'interno del workspace di OmniArt. Le sezioni che seguono descrivono come scrivere prompt direttamente per gli strumenti di Google; la sezione conclusiva indica quali abitudini si trasferiscono ai modelli video già attivi su OmniArt oggi.

Due modalità di prompt, non una

Ogni sessione di Omni Flash ha due tipi di prompt, e premiano scritture diverse.

Il prompt di prima generazione è un brief completo per un singolo battito di 10 secondi: soggetto, movimento, camera, luce, suono, stile. Si comporta come qualsiasi prompt solido di testo in video o immagine in video — anticipa il dettaglio, sii specifico, descrivi l'intera ripresa in una volta.

L'istruzione di modifica conversazionale è l'opposto. È breve, nomina esattamente un cambiamento e presuppone che il modello conservi già il clip precedente nel contesto. «Rendi la luce da golden hour.» «Sostituisci la berlina con un pick-up.» Il modello applica la modifica preservando tutto ciò che non hai menzionato — tramite il previous_interaction_id che trasporta lo stato della sessione attraverso fino a tre modifiche sequenziali via l'Interactions API. Ammassa tre cambiamenti in un'unica istruzione di modifica e perdi la precisione che rende la modalità degna di essere usata.

Il modello mentale: componi nel primo prompt, dirigi nei successivi. Ottieni un clip di base solido, poi affinalo come faresti briefando un regista a metà ripresa — una nota alla volta.

I vincoli dell'API che plasmano la tua formulazione

L'elenco dei parametri di Omni Flash è breve per scelta. Ogni omissione ha una conseguenza sul prompt:

VincoloCosa significa per il prompt
Nessun campo per prompt negativoFormula le esclusioni all'interno del prompt stesso — «una strada vuota, nessun pedone, nessun traffico» invece di una lista negativa separata
Nessuna temperatura / top_p / istruzione di sistemaNon puoi regolare la varianza né impostare una regola di stile persistente — inserisci tono e stile nel testo del prompt ogni volta
Formato: solo 9:16 o 16:9Scegli l'orientamento in partenza; non c'è un'opzione quadrata o cinematografica ampia, quindi inquadra in verticale o orizzontale dalla prima parola
Audio descritto, mai caricatoNon puoi consegnargli una traccia da abbinare — descrivi a parole il suono che vuoi (vedi sotto)
Inglese pienamente supportato; le altre lingue non sono testateScrivi i prompt in inglese per risultati prevedibili
Limite fisso di 10 secondiUn'azione chiara per generazione — non una scaletta di riprese

Avviso

Omni Flash non ha caricamento di riferimento audio. Non puoi fornirgli una base musicale né un campione vocale da sincronizzare. Genera una traccia audio in modo predefinito, e il tuo unico controllo sono le parole nel prompt — quindi il sound design va scritto, non allegato.

Un modello per la prima generazione

Poiché 10 secondi contengono un solo battito, i primi prompt più forti descrivono un singolo momento continuo con ogni strato specificato. Sei caselle coprono quasi qualsiasi ripresa:

  1. Soggetto — chi o cosa è sullo schermo, descritto concretamente
  2. Movimento — l'unica azione che si svolge lungo il clip
  3. Camera — un singolo movimento, non una sequenza («lenta spinta in avanti», «campo largo fisso»)
  4. Illuminazione — direzione, qualità, ora del giorno
  5. Sound design — l'audio che vuoi generare, a parole
  6. Stile — palette, epoca, riferimento cinematografico, texture

Un esempio elaborato:

«Un dripper per caffè in ceramica su un piano di quercia chiara, il vapore che sale mentre il caffè scuro cola nella caraffa di vetro sottostante. Lenta spinta in avanti sulla goccia. Luce mattutina morbida da una finestra a sinistra della camera, calda e diffusa. Suono: leggero gorgoglio d'acqua, ambiente di cucina in lontananza, nessuna musica. Palette editoriale attenuata, scarsa profondità di campo, girato con un obiettivo fisso luminoso.»

Nota che le esclusioni vivono dentro la frase («nessuna musica»), la camera è un solo movimento e il suono è esplicitato. È tutta qui la disciplina.

Montaggio conversazionale: il vocabolario che funziona

Una volta che hai un clip di base, le modifiche sono il punto in cui Omni Flash supera i workflow di generazione usa-e-getta. Mantieni ogni istruzione su un solo intento e appoggiati a un vocabolario di verbi coerente che il modello legge con chiarezza:

  • Rilluminare — «rendilo golden hour», «aggiungi una luce di contorno fredda da dietro»
  • Sostituire — «sostituisci il dripper del caffè con una French press»
  • Ristilizzare — «fallo sembrare pellicola anni '70»
  • Ricolorare — «cambia la tazza in nero opaco»
  • Ritempificare — «rallenta la colata», «lascia indugiare più a lungo il vapore»

Due regole mantengono coerente il filo. Un cambiamento per turno — il modello preserva ciò che non menzioni, quindi una modifica a nota singola è sia più prevedibile sia più facile da annullare rifacendo il prompt. E costruisci sul linguaggio del turno precedente — riusa i sostantivi che hai stabilito («la tazza», «la colata») così il modello si àncora agli stessi elementi anziché reinterpretare la scena.

Suggerimento

La catena di tre modifiche è un budget, non un suggerimento. Pianifica il prompt di base in modo che richieda il minor numero di follow-up — una prima generazione forte lascia i tuoi turni di modifica per cambiamenti creativi autentici, non per correggere cose che il primo prompt avrebbe potuto specificare.

Aggirare i limiti attuali

Alcuni limiti non sono risolvibili con il prompt, e conviene scrivere tenendoli a mente piuttosto che combatterli:

  • Limite di 10 secondi. Non c'è estensione della scena nell'API, quindi non scrivere prompt che implicano un arco più lungo. Progetta un battito che regga da solo.
  • La coerenza dei personaggi tra cambi di scena è un punto debole riconosciuto. Se la somiglianza conta, mantieni le modifiche all'interno della stessa scena invece di chiedere al modello di ricollocare un personaggio in un nuovo ambiente.
  • I riferimenti video oltre i 3 secondi non vengono elaborati completamente. Mantieni ogni clip di riferimento breve e mirato.
  • Nessun riferimento multi-video e nessuna modifica vocale — entrambi non sono supportati, quindi pianifica questi passaggi in uno strumento separato anziché nel prompt.

Nessuno di questi è squalificante per uno strumento di iterazione veloce e in formato breve. Significano solo che Omni Flash premia i prompt calibrati su ciò che fa bene: un singolo battito serrato, affinato in modo conversazionale.

Cosa si trasferisce a OmniArt oggi

Omni Flash non è ancora nel workspace di OmniArt, ma quasi ogni abitudine descritta sopra si trasferisce ai modelli video che ci sono — perché la disciplina di fondo (un battito chiaro, la specificità al posto della zuppa di parole chiave, il suono scritto nel prompt) è indipendente dal modello.

  • La generazione guidata da riferimenti si mappa direttamente su Seedance 2.0, attivo su OmniArt, che accetta fino a nove immagini, tre video e tre file audio legati a ruoli con la sintassi @image1 / @video1 — l'idea del «comporre dagli asset», con più input di quelli che offre Omni Flash.
  • Il linguaggio della camera cinematografica si mappa su Veo 3.1, che interpreta verbi di movimento come «drift», «glide» e «dolly in» con misura.
  • Il modello a sei caselle (soggetto, movimento, camera, luce, suono, stile) è lo stesso scheletro che produce risultati puliti su ogni modello video nel workspace.

Apri il workspace video su OmniArt, scegli il modello adatto alla ripresa e scrivi il primo prompt come un singolo battito completo. Quando Omni Flash arriverà, il workflow a due modalità descritto sopra è la parte che aggiungerai — l'arte del prompt è già la stessa.

Pronto a creare?

Inizia a generare contenuti straordinari con l’AI

Inizia gratis