guideTutorial e guide pratiche7 min di lettura

Grok Imagine: guida al modello video di xAI per i creator nel 2026

Guida pratica a Grok Imagine — sei modalità di generazione, pattern di prompt, costi reali in crediti e quando sceglierlo rispetto a V6 o Sora 2 nel 2026.

Team OmniArt5 mag 2026

Grok Imagine è il modello di generazione video e audio di xAI, lanciato a gennaio 2026 e accessibile su OmniArt senza un abbonamento xAI separato. È un prodotto diverso dal chatbot Grok — condividono il nome e poco altro. Questa guida copre a cosa serve Grok Imagine, le sei modalità di generazione che contano, i pattern di prompt che rispettano ciascuna modalità e la matematica di quanto costano davvero i progetti in crediti.

Cos'è Grok Imagine

Grok Imagine genera video fino a 720p con audio nativo in clip da 1–15 secondi. Il trucco principale non è la risoluzione — a 720p non compete con Sora 2 o V6 sulla fedeltà grezza. Il trucco è la superficie di workflow intorno al modello: sei modalità che condividono un set di pesi e ti permettono di generare, estendere, restylare e modificare senza uscire dal modello.

Specifica	Valore
Risoluzione massima	720p (usa V6 per 1080p+)
Durata massima	15 secondi per generazione
Aspect ratio	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Nativo, generato insieme al video
Costo (480p)	10 crediti al secondo
Costo (720p)	15 crediti al secondo

Le sei modalità da conoscere

Ogni modalità è un modo diverso di dire al modello che tipo di input sta gestendo. Scegliere la modalità giusta è gran parte del prompt engineering.

Text-to-Video

La default. Scrivi un prompt, ottieni una clip. Ideale per esplorazione concettuale, mood board e bozze social quando non hai ancora un'immagine di riferimento. Il costo è 10–15 crediti al secondo a seconda della risoluzione.

Image-to-Video

Anima un still preservando la composizione in ingresso. Il primo frame è bloccato sulla tua immagine. Usala per animare illustrazioni, fotografia prodotto e mockup di design dove il frame sorgente non è negoziabile.

Reference Mode — il differenziatore

Reference Mode accetta da 1 a 7 immagini come ancore visive senza bloccare il primo frame. Tagghi le immagini con @Image1, @Image2, @Image3 e le referenzi nel prompt. È ciò che la maggior parte degli altri modelli video non ha — o bloccano il primo frame (image-to-video) o non accettano riferimenti (text-to-video). Reference Mode sta nel mezzo ed è il percorso più pulito verso la coerenza del personaggio tra più shot.

Il costo è 15 crediti al secondo a 480p, 22,5 a 720p.

Extend Mode

Aggiunge da 2 a 10 secondi a una clip esistente. L'input è un MP4 tra 2 e 15 secondi. L'output è una singola clip continua; la fatturazione copre solo la porzione aggiunta. Il trucco cross-modello: Extend Mode funziona su video generati da qualsiasi modello nel workspace video OmniArt, non solo Grok.

Modify Mode

Modifica una clip esistente senza rigenerarla — cambi di sfondo, luce, colore su oggetti specifici, effetti meteo. L'input è limitato a 8 secondi e viene scalato automaticamente a 854×480, il che significa che le sorgenti ad alta risoluzione perdono dettaglio nel round trip. Usa Modify su clip che hai generato comunque a 480p.

Editing Suite — Restyle, Object Manipulation, Sketches to Life

Un insieme di operazioni post-generazione. Restyle applica stili artistici (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic). Object Manipulation aggiunge, rimuove o scambia elementi. Sketches to Life anima disegni a linea. Add Performance innesta animazione di personaggio su figure statiche. Utile per creare più varianti da una singola clip sorgente.

Prompt che rispettano il modello

Quattro abitudini alzano la qualità più in fretta di prompt più lunghi.

Usa un linguaggio cinematografico

Grok Imagine ha sei preset camera integrati: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Si attivano in modo più preciso quando i prompt usano termini di cinematografia.

Più debole	Più forte
«Una strada di città di notte con insegne al neon e persone che camminano»	«Dolly in avanti in un vicolo di Tokyo bagnato dalla pioggia, insegne al neon riflesse nelle pozzanghere, profondità di campo ridotta, una figura con ombrello entra da destra, inquadratura cinematografica 2.39:1»

Tagga i riferimenti in modo esplicito

Reference Mode si degrada quando il prompt è generico. Assegna un ruolo a ogni riferimento.

«@Image1 (la macchina sportiva rossa) derapa in una curva di montagna con @Image3 (il cielo al tramonto) sullo sfondo mentre @Image2 (il personaggio alla guida) stringe il volante.»

Metti l'azione all'inizio

La generazione procede in sequenza lungo la durata. Se il climax è alla fine di una clip da 5 secondi, il modello potrebbe non completarlo. Sposta l'azione in avanti.

Più debole	Più forte
«Una scena di foresta tranquilla con uccelli, poi all'improvviso un cervo salta un ruscello»	«Un cervo salta un ruscello in foresta alla golden hour, camera che segue il suo arco, uccelli che si alzano dai rami vicini»

Ritma le clip da 10–15 secondi su una timeline

Per clip più lunghe, scrivi il timing nel prompt.

«Zoom lento in una biblioteca abbandonata (0–5s), particelle di polvere che catturano fasci di luce (5–10s), un libro cade dallo scaffale (10–12s), pagine che svolazzano (12–15s).»

Quanto costa davvero

Tre scenari di shot reali, prezzati in crediti OmniArt.

Un video prodotto TikTok da 15 secondi

Step	Modalità	Risoluzione	Costo
Generazione iniziale	Text-to-Video	480p, 10s	100
Extend	Extend	480p, 5s	75
Totale (una revisione)			175–275

Uno storyboard brand da 3 shot

Step	Modalità	Risoluzione	Costo
Shot 1 con 2 ref	Reference, 8s	720p	180
Shot 2, stesse ref	Reference, 8s	720p	180
Shot 3, stesse ref	Reference, 6s	720p	135
Correzione luce su Shot 2	Modify, 8s	720p	180
Totale			675

Un passaggio di restyle

Step	Modalità	Risoluzione	Costo
Restyle in Anime	Restyle, 8s	480p	120

Quando scegliere un altro modello

Grok Imagine è lo strumento giusto per social short-form, sketch-to-life e storie multi-shot guidate da riferimenti a 480p–720p. È lo strumento sbagliato quando:

Esigenza	Scelta migliore
1080p o superiore	V6, BACH, Veo 3
Controllo avanzato dell'obiettivo (focale, DOF, aberrazione)	V6
Clip da 16–20 secondi in un solo passaggio	Sora 2
Dialoghi e musica da produzione	Modello audio dedicato + edit
Preservare la sorgente ad alta risoluzione nelle edit	Evita Modify Mode

Pattern di workflow che arrivano in produzione

Il modo in cui Grok Imagine ripaga su OmniArt non è come generatore standalone — è come layer di iterazione. Due pattern rendono di più.

Pattern 1 — genera altrove, rifinisci qui. Renderizza la clip master con V6 o Sora 2 a risoluzione più alta, poi usa Extend, Restyle e Modify per varianti e aggiunte in Grok a costo inferiore.

Pattern 2 — Reference Mode per il character lock. Quando una campagna brand richiede lo stesso personaggio in cinque shot, blocca l'identità con un'immagine ancora in @Image1, poi genera ogni shot con lo stesso riferimento in Reference Mode. Più economico che rilanciare Sora 2 per ogni shot.

Avviso

Modify Mode scala automaticamente qualsiasi input sopra 854×480 a 480p prima dell'elaborazione. Se devi modificare una clip 1080p senza perdere risoluzione, fai l'edit altrove o eseguila prima dello step di upscale.

Iniziare su OmniArt

Grok Imagine è disponibile nel workspace video OmniArt accanto a V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 e Seedance 2.0. Stesso saldo crediti, stesso upload di riferimenti, stessa grammatica di prompt. Inizia in Text-to-Video per imparare i preset camera, poi passa a Reference Mode quando hai un personaggio o un prodotto da bloccare.

Abbina questa guida al breakdown cinematografico BACH per lavoro narrativo a fedeltà più alta, o alla shortlist image-to-video se stai scegliendo il modello per uno shot specifico.

Pronto a creare?

Inizia a generare contenuti straordinari con l’AI

Inizia gratis