guideTutorial e guide pratiche12 min di lettura

8 prompt per Grok Imagine che funzionano davvero

Otto prompt pronti da copiare per Grok Imagine 1.5 su immagine e video, costruiti sul linguaggio naturale di FLUX.1 con la struttura Soggetto + Azione + Telecamera + Stile + Audio. Cosa produce ogni prompt e perché funziona, all'interno di OmniArt.

Team OmniArt9 giu 2026

Grok Imagine 1.5 ha aggiornato la base immagini a FLUX.1 di Black Forest Labs, e quel cambiamento ha un'implicazione concreta su come scrivi i prompt: il modello risponde alla descrizione in linguaggio naturale come un fotografo legge un brief, non come i vecchi modelli analizzavano liste di parole chiave. Gli otto prompt qui sotto sono pronti da copiare — incollali nell'area di lavoro Grok Imagine di OmniArt, adatta i dettagli e genera. Ogni scheda include il testo esatto del prompt, cosa produce e una nota artigianale su perché la struttura funziona.

Per la teoria generale dei prompt su tutti i modelli OmniArt, consulta come scrivere prompt migliori. Per il trattamento approfondito dei sei modalità di generazione di Grok Imagine e i calcoli dei costi, vedi la guida del creatore Grok Imagine. Questo articolo riguarda specificamente Grok Imagine 1.5 — la versione FLUX.1 — e la tecnica di prompt che premia.

Cosa ha cambiato Grok Imagine 1.5 nella scrittura dei prompt

Il modello base FLUX.1 è addestrato diversamente rispetto alle architetture testo-immagine precedenti. Analizza bene la prosa collegata e tende a reagire poco agli accumuli puri di parole chiave. Cinque abitudini migliorano la qualità in modo più affidabile:

Linguaggio naturale invece di accumuli di parole chiave. Le frasi complete superano gli aggettivi separati da virgole. «Una strada nell'ora blu, illuminata dal bagliore dell'insegna di un minimarket» batte «strada, notte, neon, cinematografico, 4K».
Riferimenti specifici invece di aggettivi vaghi. «Scattato con una Fujifilm XT4, 23mm f/2» dice al modello più di «foto di alta qualità». I nomi di apparecchiature e le pellicole hanno un peso reale nello spazio latente.
Parole di colore esatte invece di «colorato». «Blu elettrico e rosa acceso» produce una palette deliberata. «Colorato» produce rumore mediato.
Orario preciso invece di «ora dorata». «Fine ottobre, 17:45, sole a 6° sopra l'orizzonte» dice al modello l'angolo e il calore esatti della luce. «Ora dorata» è ambiguo a seconda delle stagioni e delle latitudini.
Struttura video: Soggetto + Azione + Telecamera + Stile + Audio. Metti il soggetto principale e l'azione nelle prime 20–30 parole. Un singolo focus stilistico supera una combinazione. Itera progressivamente — cambia una variabile per generazione finché il risultato non è stabile, poi spingi oltre.

Per un'analisi completa del vocabolario cinematografico che si trasferisce al video, la guida ai prompt per video AI cinematografici tratta in profondità la scelta delle ottiche, i movimenti di camera motivati e il linguaggio dell'illuminazione.

Gli 8 prompt

1. Foto di prodotto cinematografica (immagine)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Cosa produce: una still pulita e con direzione artistica che si legge come fotografia professionale di prodotto invece che come output IA.

Perché funziona: il riferimento alla Fujifilm XT4 ancora la scienza del colore e il rendering del sensore a un look reale specifico. L'angolo della luce è specificato numericamente, il che impedisce al modello di ricorrere di default all'illuminazione diffusa dall'alto. Mantenere la palette su due colori — alti lumi ambra caldi, riempimento ombra blu-grigio freddo — impedisce al modello di introdurre una terza tonalità in competizione.

2. Primo piano di personaggio con audio (video)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Cosa produce: un momento di personaggio con audio nativo di Grok Imagine 1.5 — il modello genera dialogo, sincronizzazione labiale e suono ambientale in un unico passaggio di inferenza.

Perché funziona: la battuta di dialogo è abbastanza breve da sincronizzare in modo pulito in 8 secondi. Due sorgenti luminose neon separate e nominate (rosa in alto, ciano da destra) danno al modello una mappa luminosa chiara e impediscono la media generica della «città neon». «Non è dramma cinematografico» è un vincolo negativo che guida l'atmosfera con più precisione di un aggettivo positivo.

Suggerimento

Mantieni il dialogo parlato a una o due frasi brevi nei clip sotto i 10 secondi. Battute più lunghe occupano la durata disponibile e il modello potrebbe accelerare la consegna o tagliare l'audio anticipatamente.

3. Ambiente atmosferico — clip di ambience (video)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Cosa produce: un clip di ambience per impostare il mood, ideale come footage di sfondo, materiale di transizione o scena di apertura.

Perché funziona: «inizio novembre, le 7 del mattino» è più preciso di «mattina nebbiosa». La spinta è descritta come «impercettibile» e «come se la telecamera stesse scivolando sul respiro», il che comunica il ritmo con più precisione di «spinta lenta in avanti». Richiedere assenza di musica impedisce all'audio di usare una colonna sonora di default — il modello genera un vero ambience in stile registrazione sul campo.

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Cosa produce: un clip social 9:16 incisivo pensato per TikTok, Reels o Shorts — presentazione prodotto con taglio rapido e audio nativo.

Perché funziona: specificare 9:16 all'inizio imposta il rapporto d'aspetto prima di tutto il resto nel prompt. La timeline è scritta esplicitamente («0–2s / 2–8s»), il che aiuta il modello a scandire correttamente i due beat invece di fonderli in un unico movimento. Nominare gli eventi audio specifici (suono di impatto, tono di sintetizzatore) produce un sound design più intenzionale di «aggiungi effetti sonori».

Avviso

I clip di Grok Imagine 1.5 durano fino a 15 secondi. Per il contenuto social mantieni i clip a un massimo di 8–10 secondi — il movimento del modello è più pulito in quella fascia e le finestre di attenzione delle piattaforme social sono brevi. A 720p, un clip da 8 secondi costa 120 crediti su OmniArt.

5. Illustrazione stilizzata (immagine)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Cosa produce: un'illustrazione grafica a colori limitati che si legge come un vero processo di stampa invece che come arte digitale generica.

Perché funziona: nominare la tecnica di stampa (Risograph) e i suoi vincoli specifici (due colori di inchiostro, forme piatte, senza gradienti, disallineamento di registro dell'inchiostro) dà al modello un brief tecnico completo. Il «disallineamento di registro» è il tipo di dettaglio di processo fisico che ancora l'output in un'estetica del mondo reale — è l'equivalente FLUX.1 di nominare un tipo di pellicola. Senza di esso, il modello tende ad aggiungere gradienti o a mescolare i colori.

6. Movimento di camera dinamico — pull-back con drone (video)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Cosa produce: un piano rivelatore sostenuto di 15 secondi — la durata massima di clip del modello — costruito attorno a un singolo movimento di camera motivato.

Perché funziona: questo prompt usa l'intera durata di 15 secondi per un unico movimento continuo, che è il modo più affidabile per ottenere un risultato pulito a quella durata. Il pull-back è vincolato a un'elevazione costante (senza inclinazione), il che impedisce al modello di improvvisare un secondo asse di camera e creare un movimento discontinuo. «Colore in stile LOG, leggera vignettatura dell'obiettivo» codifica un look da vera telecamera senza richiedere nomi di apparecchiature specifiche.

7. Moda stilizzata — ritratto con pellicola (immagine)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Cosa produce: un ritratto fotografico analogico con un rendering del colore vintage preciso — grana autentica, alazione e variazioni di colore tipiche della pellicola scaduta.

Perché funziona: «Kodak Portra 400 scaduta» è uno dei riferimenti di stile in una singola frase più potenti nello spazio latente delle immagini — porta con sé un set completo di aspettative tonali. Specificare la deriva del colore («i verdi leggermente spostati verso il giallo-oliva») evita la grana vintage generica e guida l'esatta corruzione della palette associata alla pellicola scaduta. Il taglio stretto e un rapporto d'aspetto specifico (4:5) producono un ritratto che si legge come una vera stampa fotografica.

8. Ambiente immersivo — pioggia (video)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Cosa produce: un clip ambientale immersivo in soggettiva — potente come piano di apertura o come pezzo d'atmosfera autonomo.

Perché funziona: «fine giugno, 22:00» specifica la stagione esatta, la sensazione di temperatura (pioggia estiva umida) e il livello di oscurità. Il ciclista che passa è inserito come un evento specifico in un momento preciso («circa 2 secondi a metà clip»), il che dà al modello un ancoraggio narrativo senza richiedere un'azione complessa del personaggio. L'audio è fornito in tre livelli separati (pioggia sul vetro, fruscio di pneumatici lontani, moto), il che tende a produrre un sound design più curato rispetto a una singola istruzione «pioggia urbana ambientale».

Utilizzare questi prompt su OmniArt

Tutti e otto i prompt funzionano su Grok Imagine 1.5 all'interno dell'area di creazione di OmniArt — nessun abbonamento xAI separato richiesto. I prompt per immagini (1, 5, 7) vanno nell'area immagini; i prompt video (2, 3, 4, 6, 8) vanno nell'area video sotto Grok Imagine.

Alcune note pratiche per le sessioni su OmniArt:

Inizia a 480p per le iterazioni. A 480p, il video costa 10 crediti al secondo. Quando la struttura è giusta, passa a 720p (15 crediti al secondo) per il take finale.
Usa la modalità Estendi per allungare. Il clip di ambience (prompt 3) e il pull-back con drone (prompt 6) possono essere estesi fino a 15 secondi aggiuntivi usando la modalità Estendi di Grok Imagine — lo stesso modello, addebitato solo per la parte aggiunta.
Usa la modalità Modifica per correzioni mirate. Se l'illuminazione in un risultato è quasi giusta ma un elemento è fuori posto, la modalità Modifica ti permette di descrivere la variazione in testo senza rigenerare l'intero clip. Mantieni i clip sorgente a 480p prima di passarli a Modifica — la modalità limita l'input a 854×480.
Coerenza del personaggio tra le inquadrature: se stai generando più inquadrature dello stesso personaggio (stile del prompt 2), usa la modalità Riferimento con un headshot come @Image1 e ridescivi il personaggio in ogni nuovo prompt. La modalità Riferimento di Grok Imagine 1.5 è il percorso più diretto verso la coerenza senza dipendere da un modello fine-tuned.

Per un'analisi completa di tutte e sei le modalità di generazione di Grok Imagine, gli scenari di costo e quando passare a un modello diverso, vedi la guida completa a Grok Imagine. Per il vocabolario cinematografico più ampio che si trasferisce a qualsiasi prompt video, la guida ai prompt per video AI cinematografici merita di essere aggiunta ai preferiti accanto a questa.

Pronto a creare?

Inizia a generare contenuti straordinari con l’AI

Inizia gratis