guideTutorials und Anleitungen7 Min. Lesezeit

Gemini Omni Flash: So schreiben Sie Prompts für 10-Sekunden-Videos

Gemini Omni Flash hat eine ungewöhnliche Prompt-Oberfläche: kein Negativ-Parameter, zwei Seitenverhältnisse, nur Englisch und zwei getrennte Prompt-Modi. So schreiben Sie beide richtig.

OmniArt-Team
Gemini Omni Flash: So schreiben Sie Prompts für 10-Sekunden-Videos

Die meisten Prompt-Leitfäden für KI-Videos bringen Ihnen genau eine Sache bei: einen reichhaltigen, detaillierten Absatz zu schreiben, den Sie dem Modell einmal übergeben. Gemini Omni Flash bricht mit dieser Annahme. Seine Entwickler-API (seit dem 30. Juni live) ist um zwei unterschiedliche Prompt-Akte herum aufgebaut — die erste Generierung und danach ein fortlaufendes Gespräch aus Bearbeitungen, die denselben Clip jeweils neu formen. Wer für den einen schreibt und den anderen ignoriert, lässt den Großteil des Modells ungenutzt.

Auch in dem, was sie weglässt, ist die Prompt-Oberfläche von Omni Flash ungewöhnlich. Es gibt kein Feld für Negativ-Prompts, keinen Temperatur-Regler, keine System-Anweisung und nur zwei Seitenverhältnisse. Das sind keine Lücken, die man blind umgehen sollte — jede einzelne verändert, wie Sie einen Prompt formulieren müssen. Dieser Leitfaden behandelt beide Modi und die Beschränkungen, die sie prägen.

Hinweis

Stand 1. Juli 2026 ist Gemini Omni Flash über Google AI Studio, die Gemini API, die Gemini-App und Google Flow verfügbar — noch nicht innerhalb des OmniArt-Workspace. Die folgenden Abschnitte beschreiben das Prompten von Googles eigenen Tools direkt; der abschließende Abschnitt zeigt, welche Gewohnheiten sich auf die Videomodelle übertragen, die heute in OmniArt live sind.

Zwei Prompt-Modi, nicht einer

Jede Omni Flash-Sitzung kennt zwei Arten von Prompt, und sie belohnen unterschiedliches Schreiben.

Der Prompt der Erstgenerierung ist ein vollständiges Briefing für einen einzelnen 10-Sekunden-Moment: Motiv, Bewegung, Kamera, Licht, Ton, Stil. Er verhält sich wie jeder starke Text-zu-Video- oder Bild-zu-Video-Prompt — stellen Sie das Detail nach vorne, seien Sie konkret, beschreiben Sie die ganze Aufnahme auf einmal.

Die konversationelle Bearbeitungsanweisung ist das Gegenteil. Sie ist kurz, benennt genau eine Änderung und setzt voraus, dass das Modell den vorherigen Clip bereits im Kontext hält. „Mach die Beleuchtung zur goldenen Stunde." „Tausch die Limousine gegen einen Pick-up." Das Modell wendet die Änderung an und bewahrt dabei alles, was Sie nicht erwähnt haben — über die previous_interaction_id, die den Sitzungszustand über bis zu drei aufeinanderfolgende Bearbeitungen durch die Interactions API trägt. Packen Sie drei Änderungen in eine Bearbeitungsanweisung, und Sie verlieren die Präzision, die diesen Modus überhaupt lohnenswert macht.

Das mentale Modell: In der Erstgenerierung komponieren, in den Folgeschritten Regie führen. Erzeugen Sie einen soliden Basis-Clip und verfeinern Sie ihn dann so, wie Sie einer Regisseurin mitten im Dreh Anweisungen geben würden — eine Anmerkung nach der anderen.

Die API-Beschränkungen, die Ihre Formulierung prägen

Die Parameterliste von Omni Flash ist bewusst kurz. Jede Auslassung hat eine Konsequenz für den Prompt:

BeschränkungWas das für den Prompt bedeutet
Kein Feld für Negativ-PromptsFormulieren Sie Ausschlüsse im Prompt selbst — „eine leere Straße, keine Fußgänger, kein Verkehr" statt einer separaten Negativ-Liste
Kein temperature / top_p / keine System-AnweisungSie können weder Varianz einstellen noch eine dauerhafte Stilregel festlegen — verankern Sie Ton und Stil jedes Mal im Prompt-Text
Seitenverhältnis: nur 9:16 oder 16:9Wählen Sie die Ausrichtung von Anfang an; es gibt keine quadratische oder Cinemascope-Option, also gestalten Sie ab dem ersten Wort für Hoch- oder Querformat
Audio beschrieben, nie hochgeladenSie können ihm keinen Track zum Abgleichen übergeben — Sie beschreiben den gewünschten Klang in Worten (siehe unten)
Englisch vollständig unterstützt; andere Sprachen ungetestetSchreiben Sie Prompts auf Englisch für vorhersehbare Ergebnisse
Harte Obergrenze von 10 SekundenEine klare Aktion pro Generierung — keine Shot-Liste

Warnung

Omni Flash hat keinen Upload für Audio-Referenzen. Sie können ihm kein Musikbett und keine Stimmprobe zum Synchronisieren geben. Es erzeugt standardmäßig eine Tonspur, und Ihre einzige Kontrolle sind die Worte im Prompt — Sound-Design muss also geschrieben werden, nicht angehängt.

Eine Vorlage für die Erstgenerierung

Weil 10 Sekunden nur einen Moment fassen, beschreiben die stärksten ersten Prompts einen einzelnen, durchgehenden Augenblick mit jeder ausformulierten Ebene. Sechs Felder decken nahezu jede Aufnahme ab:

  1. Motiv — wer oder was auf dem Bild ist, konkret beschrieben
  2. Bewegung — die eine Aktion, die sich über den Clip hinweg entfaltet
  3. Kamera — eine einzige Bewegung, keine Abfolge („langsame Kamerafahrt hinein", „starre Totale")
  4. Beleuchtung — Richtung, Qualität, Tageszeit
  5. Sound-Design — das Audio, das erzeugt werden soll, in Worten
  6. Stil — Farbpalette, Ära, Filmreferenz, Textur

Ein ausgearbeitetes Beispiel:

„Ein Keramik-Handfilter für Kaffee auf einer hellen Eichen-Arbeitsplatte, Dampf steigt auf, während dunkler Kaffee in die Glaskaraffe darunter rinnt. Langsame Kamerafahrt hinein auf den Tropfvorgang. Weiches Morgenlicht von einem Fenster links außerhalb des Bildes, warm und diffus. Ton: sanftes Wasserrinnen, entfernte Küchenatmosphäre, keine Musik. Gedämpfte, redaktionelle Farbpalette, geringe Schärfentiefe, aufgenommen mit einer lichtstarken Festbrennweite."

Beachten Sie, dass die Ausschlüsse im Satz selbst leben („keine Musik"), die Kamera eine einzige Bewegung ist und der Ton ausformuliert wird. Das ist die ganze Disziplin.

Konversationelle Bearbeitung: das Vokabular, das ankommt

Sobald Sie einen Basis-Clip haben, sind Bearbeitungen der Bereich, in dem Omni Flash gegenüber Generieren-und-Verwerfen-Workflows vorzieht. Halten Sie jede Anweisung auf eine Absicht begrenzt und stützen Sie sich auf ein konsistentes Verb-Vokabular, das das Modell sauber liest:

  • Neu ausleuchten — „mach es zur goldenen Stunde", „füge von hinten ein kühles Streiflicht hinzu"
  • Ersetzen — „tausch den Handfilter gegen eine French Press"
  • Umstylen — „lass es wie Filmmaterial aus den 1970ern wirken"
  • Umfärben — „ändere die Tasse in mattes Schwarz"
  • Neu takten — „verlangsame das Eingießen", „lass den Dampf länger verweilen"

Zwei Regeln halten den Gesprächsverlauf kohärent. Eine Änderung pro Runde — das Modell bewahrt, was Sie nicht erwähnen, sodass eine Ein-Punkt-Bearbeitung sowohl vorhersehbarer als auch durch erneutes Prompten leichter rückgängig zu machen ist. Und bauen Sie auf der Sprache der vorherigen Runde auf — verwenden Sie die etablierten Substantive erneut („die Tasse", „das Eingießen"), damit das Modell sich an denselben Elementen verankert, statt die Szene neu abzuleiten.

Tipp

Die Dreier-Bearbeitungskette ist ein Budget, keine Empfehlung. Planen Sie den Basis-Prompt so, dass er die wenigsten Folgeschritte braucht — eine starke Erstgenerierung hält Ihre Bearbeitungsrunden für echte kreative Änderungen frei, nicht zum Korrigieren von Dingen, die der erste Prompt hätte festlegen können.

Mit den aktuellen Grenzen umgehen

Ein paar Grenzen lassen sich nicht per Prompt lösen, und es lohnt sich, mit ihnen im Hinterkopf zu prompten, statt gegen sie anzukämpfen:

  • 10-Sekunden-Grenze. In der API gibt es keine Szenenverlängerung, also schreiben Sie keine Prompts, die einen längeren Bogen andeuten. Gestalten Sie einen Moment, der für sich allein steht.
  • Charakter-Konsistenz über Szenenwechsel hinweg ist eine anerkannte Schwachstelle. Wenn die Ähnlichkeit zählt, halten Sie Bearbeitungen innerhalb derselben Szene, statt das Modell aufzufordern, eine Figur an einen neuen Schauplatz zu versetzen.
  • Video-Referenzen über 3 Sekunden werden nicht vollständig verarbeitet. Halten Sie jeden Referenz-Clip kurz und auf den Punkt.
  • Kein Referenzieren mehrerer Videos und keine Sprachbearbeitung — beides wird nicht unterstützt, planen Sie diese Schritte also in einem separaten Tool ein, nicht im Prompt.

Nichts davon ist ein Ausschlusskriterium für ein schnelles Werkzeug zur Iteration im Kurzformat. Es bedeutet nur, dass Omni Flash Prompts belohnt, die auf das zugeschnitten sind, was es gut kann: ein enger, geschlossener Moment, konversationell verfeinert.

Was sich heute auf OmniArt überträgt

Omni Flash ist noch nicht im OmniArt-Workspace, aber fast jede Gewohnheit von oben überträgt sich auf die Videomodelle, die es sind — denn die zugrunde liegende Disziplin (ein klarer Moment, Konkretheit statt Schlagwort-Brei, Ton in den Prompt geschrieben) ist modellunabhängig.

  • Referenzgesteuerte Generierung übersetzt sich direkt zu Seedance 2.0, live auf OmniArt, das bis zu neun Bilder, drei Videos und drei Audiodateien akzeptiert, die per @image1 / @video1-Syntax an Rollen gebunden werden — dieselbe „aus Assets komponieren"-Idee, mit mehr Eingaben, als Omni Flash bietet.
  • Filmische Kamerasprache übersetzt sich zu Veo 3.1, das Bewegungsverben wie „drift", „glide" und „dolly in" mit Zurückhaltung interpretiert.
  • Die Sechs-Felder-Vorlage (Motiv, Bewegung, Kamera, Licht, Ton, Stil) ist dasselbe Grundgerüst, das auf jedem Videomodell im Workspace saubere Ergebnisse liefert.

Öffnen Sie den Video-Workspace auf OmniArt, wählen Sie das Modell, das zur Aufnahme passt, und schreiben Sie den ersten Prompt als einen vollständigen Moment. Wenn Omni Flash erscheint, ist der oben beschriebene Zwei-Modus-Workflow der Teil, den Sie hinzufügen — das Prompt-Handwerk ist bereits dasselbe.

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte

Kostenlos starten