industryModelle und Einblicke10 Min. Lesezeit

Grok Imagine 1.5 vs 1.0: was die +52 Elo tatsächlich verändern

xAIs Grok Imagine 1.5 hat +52 Elo gegenüber 1.0 gewonnen und belegt Platz 1 im Image-to-Video Arena. Wir schlüsseln den Vorsprung in vier Änderungen auf, die Ersteller sofort spüren: nativer Audio, 15-Sekunden-Clips, Gesichtskonsistenz und Extend from Frame – mit Vorher-/Nachher-Vergleichen in OmniArt.

OmniArt-Team12. Juni 2026

Grok Imagine 1.5 ist als Vorschau-Update erschienen und hat die Messlatte neu gesetzt: +52 Elo gegenüber 1.0 und damit Platz 1 im Image-to-Video Arena vor Seedance 2.0, HappyHorse 1.0 und Google Veo in blinden Nutzertests. Ein Sprung von 52 Punkten in einem ausgereiften Leaderboard ist ein bedeutsames Signal — das entspricht einer Gewinnrate von rund 57 % für Version 1.5 in direkten Vergleichen mit Version 1.0.

Die Zahl macht die Schlagzeile. Für die Produktion entscheidend ist, welche konkreten Änderungen dazu geführt haben. Wir haben Version 1.5 und 1.0 parallel im Video-Workspace von OmniArt betrieben, und der Fortschritt lässt sich klar auf vier Dinge zurückführen, die Ersteller sofort wahrnehmen. Keine davon ist subtil.

Wer mit Grok Imagine noch nicht vertraut ist, sollte zuerst den Einsteiger-Leitfaden lesen — er behandelt die sechs Generierungsmodi, Prompt-Muster und die Kreditberechnung ausführlich. Dieser Artikel setzt voraus, dass Sie bereits einige Clips mit Version 1.0 produziert haben und wissen möchten, was es wert ist, neu zu generieren.

Schneller Spezifikationsvergleich: 1.0 vs 1.5

Spezifikation	Grok Imagine 1.0	Grok Imagine 1.5
Maximale Auflösung	720p	720p
Maximale Dauer	10 Sekunden	15 Sekunden
Seitenverhältnisse	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Nativ, gemeinsame Generierung	Nativ, gemeinsame Generierung — verbessert
Gesichtskonsistenz	Basisniveau	Deutlich verbessert
Extend from Frame	Fortsetzung vom letzten Frame	Explizite Frame-Auswahl, verbesserte Kontinuität
Basis für Bildgenerierung	FLUX.1 (Black Forest Labs)	FLUX.1 (Black Forest Labs)
Kosten (480p)	10 Credits/Sek.	10 Credits/Sek.
Kosten (720p)	15 Credits/Sek.	15 Credits/Sek.
Arena-Ranking	Mehrere Plätze unterhalb von Platz 1	Platz 1 im Image-to-Video Arena

Die Auflösungsobergrenze und die Kreditpreise sind unverändert. Die Verbesserungen zeigen sich darin, was das Modell innerhalb dieser Grenzen leistet.

Änderung 1: nativer Audio klingt wie aus einem Guss

Grok Imagine erzeugt seit Version 1.0 Audio — Dialog, Lippensynchronisation, Soundeffekte und Umgebungsmusik, alles aus Video-Tokens in einem einzigen Inferenz-Durchlauf ohne ein nachträglich aufgesetztes separates Audiomodell. In der Praxis hatte das Audio von Version 1.0 zwei wiederkehrende Schwächen: mechanisches Timing beim Dialog (Wörter kamen in gleichmäßigen Abständen an und pausierten an grammatikalischen Grenzen statt an natürlichen Atempunkten) und flache Umgebungsgeräusche (Café-Szene mit einem einheitlichen Hintergrundrauschen ohne räumliche Variation).

Version 1.5 behebt beide Probleme. Dieselbe Single-Pass-Architektur erzeugt jetzt Intonation auf Satzebene — kurze, prägnante Phrasen enden mit einer fallenden Intonation, längere erklärende Sprache hat vor der Auflösung ein hörbares Ansteigen in der Satzmitte. Die Umgebungsgeräusche wirken mehrschichtig: Eine Straßenszene erzeugt Verkehr in der Ferne, Schritte in der Nähe und das gedämpfte Geräusch einer Ladentür hinter dem Motiv. Diese Effekte werden nicht nachträglich verarbeitet; sie werden mit derselben frame-sequenziellen Logik erzeugt, die der Aurora-Motor für Bewegung nutzt — jeder Frame informiert den nächsten, und die akustische Umgebung folgt der visuellen Trajektorie.

Prompt mit Version 1.0: „Ein Barista erklärt einem Kunden über die Theke hinweg den Brühvorgang, Café-Hintergrund, warmes Licht."

Ergebnis mit Version 1.0: Dialog kam in metronomen Schüben, die Espressomaschine im Hintergrund lief durchgehend auf einem konstanten Pegel.
Ergebnis mit Version 1.5: Die Erklärung des Baristas hat natürliche Mitten-Pausen, die Espressomaschine nimmt zu, als eine weitere Bestellung aufgegeben wird, die gemurmelte Antwort des Kunden ist leiser und räumlich weiter vom dominanten Mikrofonachse entfernt positioniert.

Die Lücke ist bei dialog-intensiven Clips am deutlichsten. Wer Grok-1.0-Videos bisher durch ein separates Audiomodell für Sprachaufnahmen geleitet hat, für den schließt Version 1.5 den Großteil dieser Lücke nativ.

Änderung 2: aus 10 Sekunden werden 15 Sekunden

Grok Imagine 1.0 begrenzte Clips auf 10 Sekunden. Version 1.5 hebt das auf 15 Sekunden, wobei jede ganzzahlige Dauer von 1 bis 15 Sekunden unterstützt wird. Die fünf Extra-Sekunden klingen marginal. In der Praxis entscheidet das, ob ein Social-Clip einen weiteren Extend-Durchlauf braucht oder bereits bei der ersten Generierung fertig ist.

Die Kreditrechnung ändert sich für typische Anwendungsfälle spürbar:

Anwendungsfall	1.0 (max. 10s + Extend auf 15s)	1.5 (15s nativ)
15s TikTok, 480p	100 (10s) + 75 (5s Extend) = 175	150
15s TikTok, 720p	150 (10s) + 112,5 (5s Extend) = 262,5	225
10s Produktaufnahme, 720p	150	150 (unverändert)

Für das gängigste Social-Format — einen 15-Sekunden-Clip — kostet Version 1.5 im Vergleich zum Generieren-und-Erweitern-Ansatz von Version 1.0 bei 480p rund 14 % weniger und bei 720p ebenfalls rund 14 % weniger. Dazu entfällt der Nahtartefakt, der am Extend-Verbindungspunkt mitunter auftritt.

Der Extend-Modus selbst ist in Version 1.5 weiterhin verfügbar, um über 15 Sekunden hinauszugehen — Sie zahlen Erweiterungskosten jedoch nur für Footage, die tatsächlich mehr Laufzeit benötigt, nicht weil die Basisgenerierung einen Schnitt erzwungen hat.

Änderung 3: Gesichtsgenauigkeit und Charakterkonsistenz

Das ist die schwer zu quantifizierende Änderung, die im Community-Feedback am häufigsten erwähnt wird. Grok Imagine 1.0 konnte im Eröffnungsframe ein überzeugendes Gesicht erzeugen und es dann verlieren — mit Formveränderungen zwischen Frames, besonders bei Kopfdrehungen, Beleuchtungsübergängen oder schneller Bewegung. Charaktere, die über den Referenz-Modus eingeführt wurden, zeigten über längere Clips hinweg Abweichungen in den Gesichtsanteilen.

Version 1.5 adressiert das auf Architekturebene. Die sequenzielle Frame-Generierung des Aurora-Motors — bei der jeder Frame vom vorherigen informiert wird — bewahrt Gesichtslandmarken nun stabiler über Rotationen und Beleuchtungswechsel hinweg. Das Community-Feedback ist einheitlich: Kopfdrehungen, die zuvor unheimliche Verformungen erzeugten, werden nun bei normaler Abspielgeschwindigkeit sauber abgeschlossen.

Vorher/Nachher mit einem einzelnen Referenz-Modus-Prompt: „[@Image1] geht durch eine nebelverhangene Gasse auf die Kamera zu, Gesicht deutlich sichtbar, dreht sich bei 8 Sekunden leicht nach rechts, warmes Straßenlicht von oben."

Version 1.0: Das Motiv bewahrte während des Gehens eine konsistente Identität, doch die Rechtsdrehung erzeugte bei dem Frame in der Mitte der Drehung eine auffällige Kinnbreiten-Verschiebung, die sich bei der Auflösung abrupt korrigierte.
Version 1.5: Dieselbe Drehung wird ohne den Korrekturartefakt abgeschlossen. Die Proportionen von Kinn und Wangenknochen bleiben über die gesamte Rotation stabil.

Das ist besonders bedeutsam für alle Anwendungsfälle, bei denen das Gesicht einer Figur das Hauptmotiv ist — Talking-Head-Content, charaktergetriebene Erzählungen, Produktdemos mit Markenbotschaftern sowie alle Clips, die den Referenz-Modus nutzen, um eine konsistente Identität über mehrere Einstellungen hinweg zu verankern.

Tipp

Charakterkonsistenz akkumuliert sich über den Extend-Modus hinweg. In Version 1.5 bewahrt ein verlängerter Clip die in der Originalgenerierung etablierte Stabilität der Gesichtslandmarken. Die Naht, an der die Erweiterung ansetzt, ist weniger erkennbar als in Version 1.0, weil beide Segmente nun dieselbe Gesichtsgeometrie-Basislinie teilen.

Änderung 4: Extend from Frame — Clips bis zur Kurzfilmlänge verketten

Der Extend-Modus in Version 1.0 fügte Frames an das Ende eines Clips an, die Steuerungsmöglichkeiten waren jedoch begrenzt: Man übergab den Clip an das Modell und bat es um eine Fortsetzung. In Version 1.5 fügt Extend from Frame eine explizite Frame-Auswahl hinzu — Sie wählen den konkreten Endframe, von dem aus Sie fortfahren möchten, und das Modell setzt vom exakten visuellen Zustand dieses Frames fort: gleiche Motivposition, gleiche Beleuchtungsrichtung, gleiche Kameratrajektorie, gleiche atmosphärische Bedingungen.

Der Unterschied spielt dann eine Rolle, wenn eine Generierung den richtigen Anfang und die richtige Mitte liefert, die letzten Frames aber von der Absicht abweichen. In Version 1.0 bedeutete ein unvollkommener Endframe, ihn als Ausgangspunkt für die Erweiterung zu akzeptieren oder den gesamten Clip neu zu erstellen. In Version 1.5 können Sie einen Frame aus einer früheren Stelle der Generierung auswählen — den saubereren Kompositionsmoment, den Sie wirklich fortführen wollten — und von dort aus erweitern.

Der praktische Workflow für längere Produktionen:

Generieren Sie ein 15-sekündiges Eröffnungssegment. Prüfen Sie es, identifizieren Sie den besten Abschluss-Frame.
Verwenden Sie Extend from Frame, wählen Sie diesen Frame, generieren Sie die nächsten 15 Sekunden.
Wiederholen Sie das, bis Sie die benötigte Laufzeit erreicht haben.

Eine Dreiteilung aus je 15-Sekunden-Segmenten ergibt 45 Sekunden Footage mit Charakter, Beleuchtung und Kamerazustand, die über die Übergänge hinweg erhalten bleiben. Das reicht für eine Produktdemo, einen kurzen Werbespot oder eine narrative Intro-Sequenz — von einem Modell, das pro Sekunde 10–15 Credits berechnet.

Hinweis

Der Extend-Modus in OmniArt funktioniert modellübergreifend, nicht nur mit Grok Imagine. Sie können die Eröffnung mit einem anderen Modell generieren und Extend from Frame von Grok Imagine 1.5 nutzen, um sie fortzusetzen. Damit bringen Sie die Verbesserungen bei der Charakterkonsistenz auch in Footage, die woanders entstanden ist.

Worauf die +52 Elo wirklich zurückgehen

Der Arena-Vorsprung gliedert sich in diese vier Änderungen, gewichtet nach der Häufigkeit, mit der jede im Produktionsalltag vorkommt:

Änderung	Einfluss auf das Elo	Wo man es spürt
Natürlichkeit des Audios	Hoch	Alle Clips mit Dialog oder mehrschichtiger Umgebungsatmosphäre
Native 15s-Dauer	Mittel	15-Sekunden-Social-Formate; Extend-abhängige Workflows
Gesichtskonsistenz	Hoch	Talking Heads, Referenz-Modus-Charakterarbeit, Kopfdrehungen
Extend from Frame	Mittel	Mehrsegment-Produktionen, verkettete Clips

Der Arena testet speziell Bild-zu-Video — ein Eingabe-Still wird animiert. In diesem Kontext sind Gesichtskonsistenz und Audio-Natürlichkeit die beiden Qualitäten, die Blind-Voter am häufigsten wahrnehmen. Das erklärt, woher der Großteil des Elo-Gewinns stammt. Dauer und Extend from Frame sind für erfahrene Nutzer, die Multi-Shot-Projekte entwickeln, wichtiger als für den Blind-Test-Voter, der einen 5-Sekunden-Clip sieht.

Sollten Sie Ihre Version-1.0-Projekte neu generieren?

Kurz zusammengefasst: ja für alle Projekte, bei denen das Gesicht das Hauptmotiv war, und ja für alles, was Sie mit dem Generieren-und-Erweitern-Muster auf 15 Sekunden gebracht haben. Für alles andere hängt die Entscheidung vom Einzelprojekt ab.

Jetzt neu generieren, wenn:

Sie in Version 1.0 Talking-Head- oder charakterzentrierte Clips produziert haben und eine Gesichtsdrift in der Clip-Mitte bemerkt haben. Dieselben Referenz-Modus-Eingaben sollten in Version 1.5 spürbar sauberere Ergebnisse liefern.
Sie 15-Sekunden-Clips als 10s + 5s Extend erstellt haben und Nahtelemente aufgetreten sind. Die native 15-Sekunden-Generierung von Version 1.5 eliminiert den Verbindungspunkt.
Audio das letzte Hindernis war bei einem Clip, der ansonsten fast fertig war. Die natürliche Intonation und das mehrschichtige Ambiente von Version 1.5 lösen die häufigsten Beschwerden, ohne die visuelle Seite neu zu prompten.

Nicht der Mühe wert, wenn:

Der Clip rein bewegungsbasiert war ohne Charaktere oder Dialog — die Obergrenze der visuellen Qualität bei 720p hat sich nicht verändert, und Verbesserungen beim Extend-Verhalten sind bei Single-Segment-Ausgabe marginal.
Sie den Modify-Modus intensiv nutzen — Modify skaliert weiterhin alle Eingaben über 854×480 vor der Verarbeitung auf 480p herunter, und dieses Verhalten ist in Version 1.5 unverändert.
Das Original eine kurze (unter 8s) atmosphärische B-Roll-Aufnahme ohne Charaktere war. Die Verbesserung beim Umgebungsaudio ist real, rechtfertigt aber bei aktueller Kreditpreisgestaltung eine Neugenerierung wahrscheinlich nicht.

Warnung

Das 480p-Downscale-Limit des Modify-Modus ist in Version 1.5 unverändert. Wenn Sie einen 720p-Clip ohne Auflösungsverlust bearbeiten müssen, führen Sie den Modify-Durchlauf vor Ihrer abschließenden 720p-Generierung durch, nicht danach.

Loslegen auf OmniArt

Grok Imagine 1.5 ist im Video-Workspace von OmniArt neben V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 und Seedance 2.0 verfügbar. Ein separates xAI-Abonnement ist nicht erforderlich — das gleiche OmniArt-Kredit-Guthaben deckt alle Modelle ab.

Der schnellste Weg, Version 1.5 zu kalibrieren, ist, einen Prompt auszuführen, den Sie bereits aus Version 1.0 kennen. Gleiche Eingabe, Ausgabe nebeneinandergestellt, mit den Gesichts- und Audio-Verbesserungen, die sofort im Vergleich zur Ausgangsbasis sichtbar sind. Beginnen Sie damit, dann entscheiden Sie, welche Version-1.0-Projekte wirklich eine Neugenerierung rechtfertigen.

Für die vollständige Aufschlüsselung der sechs Modi, die Kreditberechnung und Prompt-Muster für den Referenz-Modus finden Sie alles im Grok Imagine-Leitfaden. Für einen Modellvergleich, der zeigt, wo Grok Imagines Bild-zu-Video-Ranking in die breitere Landschaft von 2026 einzuordnen ist, enthält die Shortlist der besten Bild-zu-Video-KI-Modelle die aktuellen Rankings.

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte

Kostenlos starten