Grok Imagine: guida al modello video di xAI per i creator nel 2026
Guida pratica a Grok Imagine — sei modalità di generazione, pattern di prompt, costi reali in crediti e quando sceglierlo rispetto a V6 o Sora 2 nel 2026.

Grok Imagine è il modello di generazione video e audio di xAI, lanciato a gennaio 2026 e accessibile su OmniArt senza un abbonamento xAI separato. È un prodotto diverso dal chatbot Grok — condividono il nome e poco altro. Questa guida copre a cosa serve Grok Imagine, le sei modalità di generazione che contano, i pattern di prompt che rispettano ciascuna modalità e la matematica di quanto costano davvero i progetti in crediti.
Cos'è Grok Imagine
Grok Imagine genera video fino a 720p con audio nativo in clip da 1–15 secondi. Il trucco principale non è la risoluzione — a 720p non compete con Sora 2 o V6 sulla fedeltà grezza. Il trucco è la superficie di workflow intorno al modello: sei modalità che condividono un set di pesi e ti permettono di generare, estendere, restylare e modificare senza uscire dal modello.
| Specifica | Valore |
|---|---|
| Risoluzione massima | 720p (usa V6 per 1080p+) |
| Durata massima | 15 secondi per generazione |
| Aspect ratio | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Audio | Nativo, generato insieme al video |
| Costo (480p) | 10 crediti al secondo |
| Costo (720p) | 15 crediti al secondo |
Le sei modalità da conoscere
Ogni modalità è un modo diverso di dire al modello che tipo di input sta gestendo. Scegliere la modalità giusta è gran parte del prompt engineering.
Text-to-Video
La default. Scrivi un prompt, ottieni una clip. Ideale per esplorazione concettuale, mood board e bozze social quando non hai ancora un'immagine di riferimento. Il costo è 10–15 crediti al secondo a seconda della risoluzione.
Image-to-Video
Anima un still preservando la composizione in ingresso. Il primo frame è bloccato sulla tua immagine. Usala per animare illustrazioni, fotografia prodotto e mockup di design dove il frame sorgente non è negoziabile.
Reference Mode — il differenziatore
Reference Mode accetta da 1 a 7 immagini come ancore visive senza bloccare il primo frame. Tagghi le immagini con @Image1, @Image2, @Image3 e le referenzi nel prompt. È ciò che la maggior parte degli altri modelli video non ha — o bloccano il primo frame (image-to-video) o non accettano riferimenti (text-to-video). Reference Mode sta nel mezzo ed è il percorso più pulito verso la coerenza del personaggio tra più shot.
Il costo è 15 crediti al secondo a 480p, 22,5 a 720p.
Extend Mode
Aggiunge da 2 a 10 secondi a una clip esistente. L'input è un MP4 tra 2 e 15 secondi. L'output è una singola clip continua; la fatturazione copre solo la porzione aggiunta. Il trucco cross-modello: Extend Mode funziona su video generati da qualsiasi modello nel workspace video OmniArt, non solo Grok.
Modify Mode
Modifica una clip esistente senza rigenerarla — cambi di sfondo, luce, colore su oggetti specifici, effetti meteo. L'input è limitato a 8 secondi e viene scalato automaticamente a 854×480, il che significa che le sorgenti ad alta risoluzione perdono dettaglio nel round trip. Usa Modify su clip che hai generato comunque a 480p.
Editing Suite — Restyle, Object Manipulation, Sketches to Life
Un insieme di operazioni post-generazione. Restyle applica stili artistici (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic). Object Manipulation aggiunge, rimuove o scambia elementi. Sketches to Life anima disegni a linea. Add Performance innesta animazione di personaggio su figure statiche. Utile per creare più varianti da una singola clip sorgente.
Prompt che rispettano il modello
Quattro abitudini alzano la qualità più in fretta di prompt più lunghi.
Usa un linguaggio cinematografico
Grok Imagine ha sei preset camera integrati: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Si attivano in modo più preciso quando i prompt usano termini di cinematografia.
| Più debole | Più forte |
|---|---|
| «Una strada di città di notte con insegne al neon e persone che camminano» | «Dolly in avanti in un vicolo di Tokyo bagnato dalla pioggia, insegne al neon riflesse nelle pozzanghere, profondità di campo ridotta, una figura con ombrello entra da destra, inquadratura cinematografica 2.39:1» |
Tagga i riferimenti in modo esplicito
Reference Mode si degrada quando il prompt è generico. Assegna un ruolo a ogni riferimento.
«@Image1 (la macchina sportiva rossa) derapa in una curva di montagna con @Image3 (il cielo al tramonto) sullo sfondo mentre @Image2 (il personaggio alla guida) stringe il volante.»
Metti l'azione all'inizio
La generazione procede in sequenza lungo la durata. Se il climax è alla fine di una clip da 5 secondi, il modello potrebbe non completarlo. Sposta l'azione in avanti.
| Più debole | Più forte |
|---|---|
| «Una scena di foresta tranquilla con uccelli, poi all'improvviso un cervo salta un ruscello» | «Un cervo salta un ruscello in foresta alla golden hour, camera che segue il suo arco, uccelli che si alzano dai rami vicini» |
Ritma le clip da 10–15 secondi su una timeline
Per clip più lunghe, scrivi il timing nel prompt.
«Zoom lento in una biblioteca abbandonata (0–5s), particelle di polvere che catturano fasci di luce (5–10s), un libro cade dallo scaffale (10–12s), pagine che svolazzano (12–15s).»
Quanto costa davvero
Tre scenari di shot reali, prezzati in crediti OmniArt.
Un video prodotto TikTok da 15 secondi
| Step | Modalità | Risoluzione | Costo |
|---|---|---|---|
| Generazione iniziale | Text-to-Video | 480p, 10s | 100 |
| Extend | Extend | 480p, 5s | 75 |
| Totale (una revisione) | 175–275 |
Uno storyboard brand da 3 shot
| Step | Modalità | Risoluzione | Costo |
|---|---|---|---|
| Shot 1 con 2 ref | Reference, 8s | 720p | 180 |
| Shot 2, stesse ref | Reference, 8s | 720p | 180 |
| Shot 3, stesse ref | Reference, 6s | 720p | 135 |
| Correzione luce su Shot 2 | Modify, 8s | 720p | 180 |
| Totale | 675 |
Un passaggio di restyle
| Step | Modalità | Risoluzione | Costo |
|---|---|---|---|
| Restyle in Anime | Restyle, 8s | 480p | 120 |
Quando scegliere un altro modello
Grok Imagine è lo strumento giusto per social short-form, sketch-to-life e storie multi-shot guidate da riferimenti a 480p–720p. È lo strumento sbagliato quando:
| Esigenza | Scelta migliore |
|---|---|
| 1080p o superiore | V6, BACH, Veo 3 |
| Controllo avanzato dell'obiettivo (focale, DOF, aberrazione) | V6 |
| Clip da 16–20 secondi in un solo passaggio | Sora 2 |
| Dialoghi e musica da produzione | Modello audio dedicato + edit |
| Preservare la sorgente ad alta risoluzione nelle edit | Evita Modify Mode |
Pattern di workflow che arrivano in produzione
Il modo in cui Grok Imagine ripaga su OmniArt non è come generatore standalone — è come layer di iterazione. Due pattern rendono di più.
Pattern 1 — genera altrove, rifinisci qui. Renderizza la clip master con V6 o Sora 2 a risoluzione più alta, poi usa Extend, Restyle e Modify per varianti e aggiunte in Grok a costo inferiore.
Pattern 2 — Reference Mode per il character lock. Quando una campagna brand richiede lo stesso personaggio in cinque shot, blocca l'identità con un'immagine ancora in @Image1, poi genera ogni shot con lo stesso riferimento in Reference Mode. Più economico che rilanciare Sora 2 per ogni shot.
Warning
Modify Mode scala automaticamente qualsiasi input sopra 854×480 a 480p prima dell'elaborazione. Se devi modificare una clip 1080p senza perdere risoluzione, fai l'edit altrove o eseguila prima dello step di upscale.
Iniziare su OmniArt
Grok Imagine è disponibile nel workspace video OmniArt accanto a V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 e Seedance 2.0. Stesso saldo crediti, stesso upload di riferimenti, stessa grammatica di prompt. Inizia in Text-to-Video per imparare i preset camera, poi passa a Reference Mode quando hai un personaggio o un prodotto da bloccare.
Abbina questa guida al breakdown cinematografico BACH per lavoro narrativo a fedeltà più alta, o alla shortlist image-to-video se stai scegliendo il modello per uno shot specifico.