guideTutorials und Anleitungen11 Min. Lesezeit

8 Grok Imagine Prompts, die wirklich funktionieren

Acht sofort einsatzbereit kopierbare Grok Imagine 1.5 Prompts für Bild und Video, entwickelt im natürlichsprachlichen Stil von FLUX.1 mit der Struktur Motiv + Aktion + Kamera + Stil + Audio. Was jeder Prompt erzeugt und warum er funktioniert, direkt in OmniArt.

OmniArt-Team9. Juni 2026

Grok Imagine 1.5 hat die Bildbasis auf FLUX.1 von Black Forest Labs umgestellt, und diese Änderung hat eine konkrete Auswirkung auf das Schreiben von Prompts: Das Modell reagiert auf natürlichsprachliche Beschreibungen so, wie ein Fotograf ein Briefing liest — nicht so, wie ältere Modelle Stichwortlisten verarbeiteten. Die acht Prompts unten sind sofort einsatzbereit — fügen Sie sie in den Grok Imagine Workspace von OmniArt ein, passen Sie die Details an und generieren Sie. Jede Karte enthält den genauen Prompt-Text, was er erzeugt und eine handwerkliche Notiz dazu, warum die Struktur funktioniert.

Für allgemeine Prompt-Theorie zu allen OmniArt-Modellen lesen Sie wie man bessere Prompts schreibt. Für die ausführliche Behandlung der sechs Generierungsmodi von Grok Imagine und der Kostenrechnung, lesen Sie den Grok Imagine Creator-Leitfaden. Dieser Artikel behandelt speziell Grok Imagine 1.5 — die FLUX.1-Version — und die Prompt-Technik, die damit belohnt wird.

Was Grok Imagine 1.5 beim Prompting verändert hat

Das FLUX.1-Basismodell ist anders trainiert als frühere Text-zu-Bild-Architekturen. Es verarbeitet zusammenhängende Prosa gut und neigt dazu, auf reine Stichwortanhäufungen unterdurchschnittlich zu reagieren. Fünf Gewohnheiten verbessern die Qualität am zuverlässigsten:

Natürliche Sprache statt Stichwortanhäufungen. Vollständige Sätze übertreffen kommagetrennte Adjektive. „Eine Straße in der blauen Stunde, beleuchtet vom Schimmer eines Lebensmittelladens" schlägt „Straße, Nacht, Neon, cineastisch, 4K."
Spezifische Referenzen statt vager Adjektive. „Aufgenommen mit einer Fujifilm XT4, 23mm f/2" sagt dem Modell mehr als „hochwertige Aufnahme." Genannte Kameramodelle und Filmtypen haben echtes Gewicht im Latenzraum.
Exakte Farbbezeichnungen statt „bunt." „Elektrisches Blau und heißes Pink" erzeugt eine bewusste Palette. „Bunt" erzeugt gemitteltes Rauschen.
Exakte Uhrzeit statt „goldene Stunde." „Ende Oktober, 17:45 Uhr, Sonne 6° über dem Horizont" teilt dem Modell den genauen Winkel und die Wärme des Lichts mit. „Goldene Stunde" ist je nach Jahreszeit und Breitengrad mehrdeutig.
Video-Struktur: Motiv + Aktion + Kamera + Stil + Audio. Hauptmotiv und Aktion in den ersten 20–30 Wörtern platzieren. Ein einziger Stilfokus übertrifft eine Mischung. Progressiv iterieren — pro Generierung eine Variable ändern, bis das Ergebnis feststeht, dann weiterentwickeln.

Für eine vollständige Aufschlüsselung des filmischen Vokabulars, das auf Video übertragbar ist, behandelt der Leitfaden für filmische KI-Video-Prompts Objektivwahl, motivierte Kamerabewegungen und Lichtsprache eingehend.

Die 8 Prompts

1. Filmische Produktaufnahme (Bild)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Was es erzeugt: ein sauberes, künstlerisch gestaltetes Stillleben, das wie professionelle Produktfotografie wirkt und nicht wie KI-Output.

Warum es funktioniert: Die Referenz auf die Fujifilm XT4 verankert die Farbwissenschaft und das Sensorrendering in einem spezifischen realen Look. Der Lichtwinkel ist numerisch angegeben, was verhindert, dass das Modell auf diffuses Oberlicht als Standard zurückgreift. Die Palette auf zwei Farben zu beschränken — warme Bernstein-Lichter, kühle Blaugrau-Schatten — verhindert, dass das Modell einen dritten konkurrierenden Farbton einführt.

2. Charakter-Nahaufnahme mit Audio (Video)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Was es erzeugt: ein Charaktermoment mit nativem Grok Imagine 1.5 Audio — das Modell generiert Dialog, Lippensynchronisation und Umgebungsgeräusche in einem einzigen Inferenzdurchlauf.

Warum es funktioniert: Die Dialogzeile ist kurz genug, um innerhalb von 8 Sekunden sauber synchronisiert zu werden. Zwei separate, benannte Neon-Lichtquellen (Pink oben, Cyan von rechts) geben dem Modell eine klare Lichtkarte und verhindern das generische „Neon-City"-Mitteln. „Kein filmisches Drama" ist eine negative Einschränkung, die die Stimmung präziser leitet als ein positives Adjektiv.

Tipp

Halten Sie gesprochenen Dialog in Clips unter 10 Sekunden auf ein oder zwei kurze Sätze. Längere Zeilen füllen die verfügbare Dauer aus und das Modell könnte die Wiedergabe beschleunigen oder das Audio vorzeitig abschneiden.

3. Atmosphärische Umgebung — Ambient-Clip (Video)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Was es erzeugt: ein stimmungssetzendes Ambient-Clip, ideal als Hintergrundmaterial, Übergangsmaterial oder Eröffnungsszene.

Warum es funktioniert: „Anfang November, 7 Uhr morgens" ist präziser als „nebliger Morgen." Der Push wird als „unmerklich" und „wie auf dem Atem treibend" beschrieben, was das Tempo präziser kommuniziert als „langsamer Vorwärtsschub." Die Bitte um keine Musik verhindert, dass das Audio standardmäßig Filmmusik verwendet — das Modell generiert stattdessen echtes Ambience im Stil einer Field-Recording.

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Was es erzeugt: ein prägnanter 9:16 Social-Clip für TikTok, Reels oder Shorts — schnell geschnittene Produktpräsentation mit nativem Audio.

Warum es funktioniert: Das Angeben von 9:16 am Anfang legt das Seitenverhältnis vor allem anderen im Prompt fest. Die Zeitleiste ist explizit ausgeschrieben („0–2s / 2–8s"), was dem Modell hilft, die zwei Beats korrekt zu takten, anstatt sie zu einem Bewegungsablauf zu verschmelzen. Das Benennen der spezifischen Audio-Events (Aufprallgeräusch, Synthesizer-Ton) produziert ein intentionaleres Sound-Design als „füge Soundeffekte hinzu."

Warnung

Grok Imagine 1.5 Clips laufen bis zu 15 Sekunden. Für Social-Content halten Sie Clips auf maximal 8–10 Sekunden — die Bewegung des Modells ist in diesem Bereich am saubersten und die Aufmerksamkeitsfenster sozialer Plattformen sind kurz. Bei 720p kostet ein 8-Sekunden-Clip 120 Credits auf OmniArt.

5. Stilisierte Illustration (Bild)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Was es erzeugt: eine grafische, farbreduzierte Illustration, die wie ein echter Druckprozess wirkt, nicht wie generische digitale Kunst.

Warum es funktioniert: Das Benennen der Drucktechnik (Risograph) und ihrer spezifischen Einschränkungen (zwei Tintenfarben, flache Formen, keine Farbverläufe, Passungenauigkeit) gibt dem Modell ein vollständiges technisches Briefing. „Passungenauigkeit" ist genau die Art physischer Prozessdetails, die das Ergebnis in einer realen Ästhetik verankert — das FLUX.1-Äquivalent zur Nennung eines Filmtyps. Ohne sie neigt das Modell dazu, Farbverläufe hinzuzufügen oder Farben zu vermischen.

6. Dynamische Kamerabewegung — Drohnen-Rückfahrt (Video)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Was es erzeugt: eine anhaltende 15-Sekunden-Enthüllungseinstellung — die maximale Clip-Länge des Modells — aufgebaut um eine einzige motivierte Kamerabewegung.

Warum es funktioniert: Dieser Prompt nutzt die volle 15-Sekunden-Dauer für eine einzige kontinuierliche Bewegung, was die zuverlässigste Methode ist, bei dieser Länge ein sauberes Ergebnis zu erzielen. Die Rückfahrt ist auf konstante Höhe (keine Neigung) beschränkt, was verhindert, dass das Modell spontan eine zweite Kameraachse hinzufügt und ruckartige Bewegung erzeugt. „LOG-Stil Farbe, leichte Objektivvignettierung" kodiert einen realen Kamera-Look ohne spezifische Gerätenames zu benötigen.

7. Stilisierte Mode — Filmporträt (Bild)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Was es erzeugt: ein Analogfoto-Porträt mit präzisem Vintage-Farb-Rendering — authentisches Korn, Halation und die Farbverschiebungen abgelaufener Filme.

Warum es funktioniert: „Abgelaufener Kodak Portra 400" ist eine der stärksten Einzel-Satz-Stilreferenzen im Bild-Latenzraum — er trägt ein vollständiges Set an Tonalitätserwartungen. Das Angeben der Farbverschiebung („Grüntöne leicht in Richtung Gelbgrün verschoben") verhindert generisches Vintage-Korn und lenkt die genaue Palettenverfälschung, die mit abgelaufenen Filmen verbunden ist. Enger Ausschnitt und ein spezifisches Seitenverhältnis (4:5) erzeugen ein Porträt, das wie ein echter Fotoabzug wirkt.

8. Immersive Umgebung — Regen (Video)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Was es erzeugt: ein immersiver, perspektivischer Umgebungsclip — stark als Eröffnungseinstellung oder als eigenständiges Stimmungsstück.

Warum es funktioniert: „Ende Juni, 22:00 Uhr" spezifiziert die genaue Jahreszeit, das Temperaturgefühl (feuchter Sommerregen) und den Dunkelheitsgrad. Der vorbeifahrende Radfahrer wird als spezifisches Ereignis zu einem bestimmten Moment eingepflanzt („etwa 2 Sekunden in der Mitte des Clips"), was dem Modell einen narrativen Anker gibt, ohne komplexe Charakteraktion zu fordern. Das Audio wird in drei separaten Schichten gegeben (Regen auf Glas, Reifengeräusch aus der Ferne, Motorrad), was tendenziell zu durchdachterem Sound-Design führt als eine einzige „urbaner Umgebungsregen"-Anweisung.

Diese Prompts auf OmniArt ausführen

Alle acht Prompts laufen auf Grok Imagine 1.5 im OmniArt-Kreationsbereich — kein separates xAI-Abonnement erforderlich. Die Bild-Prompts (1, 5, 7) kommen in den Bild-Workspace; die Video-Prompts (2, 3, 4, 6, 8) in den Video-Workspace unter Grok Imagine.

Einige praktische Hinweise für OmniArt-Durchläufe:

Beginnen Sie bei 480p für die Iteration. Bei 480p kostet Video 10 Credits pro Sekunde. Sobald die Struktur stimmt, wechseln Sie für die endgültige Aufnahme zu 720p (15 Credits pro Sekunde).
Mit dem Extend-Modus verlängern. Der Ambient-Clip (Prompt 3) und die Drohnen-Rückfahrt (Prompt 6) können mit Grok Imagines Extend-Modus um bis zu 15 weitere Sekunden verlängert werden — dasselbe Modell, nur der hinzugefügte Teil wird berechnet.
Mit dem Modify-Modus gezielt korrigieren. Wenn die Beleuchtung in einem Ergebnis fast stimmt, aber ein Element nicht, können Sie im Modify-Modus die Änderung in Text beschreiben, ohne den gesamten Clip neu zu generieren. Halten Sie Quell-Clips bei 480p, bevor Sie sie an Modify übergeben — der Modus begrenzt die Eingabe auf 854×480.
Charakterkonsistenz zwischen Einstellungen: Wenn Sie mehrere Einstellungen desselben Charakters generieren (im Stil von Prompt 2), verwenden Sie den Reference-Modus mit einem Porträt als @Image1 und wiederholen Sie die Charakterbeschreibung in jedem neuen Prompt. Grok Imagine 1.5s Reference-Modus ist der direkteste Weg zu Konsistenz, ohne auf ein feinabgestimmtes Modell angewiesen zu sein.

Für eine vollständige Aufschlüsselung aller sechs Grok Imagine Generierungsmodi, Kostenszenarien und wann auf ein anderes Modell zu wechseln ist, lesen Sie den vollständigen Grok Imagine-Leitfaden. Für das breitere Filmsprachen-Vokabular, das auf beliebige Video-Prompts übertragbar ist, empfiehlt sich der Leitfaden für filmische KI-Video-Prompts als Lesezeichen neben diesem Artikel.

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte

Kostenlos starten