Grok Imagine 1.5 vs 1.0: +52 Elo gerçekte neyi değiştiriyor
xAI'ın Grok Imagine 1.5'i, 1.0'a göre +52 Elo artışıyla Image-to-Video Arena'da zirviye yerleşti. Kazanımı içerik üreticilerin hemen hissettiği dört değişikliğe ayırıyoruz: native ses, 15 saniyelik klipler, yüz tutarlılığı ve Extend from Frame — OmniArt'taki öncesi/sonrası karşılaştırmalarıyla birlikte.

Grok Imagine 1.5, Preview güncellemesi olarak yayımlandı ve fark yarattı: 1.0'a göre +52 Elo, kör kullanıcı testlerinde Seedance 2.0, HappyHorse 1.0 ve Google Veo'yu geride bırakarak Image-to-Video Arena'nın zirvesine çıktı. Olgun bir liderboard'da 52 puanlık sıçrama anlamlı bir sinyal — bu, 1.5'in 1.0'a karşı doğrudan karşılaşmalarda yaklaşık %57 kör test kazanma oranına sahip olduğu anlamına geliyor.
Sayı manşet oldu. Üretim çalışması açısından önemli olan ise bunu hangi somut değişikliklerin sağladığıdır. OmniArt'ın video çalışma alanında 1.5'i 1.0 ile birlikte çalıştırdık ve kazanım, içerik üreticilerin anında hissettiği dört şeye açıkça bağlanıyor. Bunların hiçbiri ince bir fark değil.
Grok Imagine'e yeniyseniz önce temel rehberi okuyun — altı üretim modunu, prompt kalıplarını ve kredi hesaplamasını ayrıntılı biçimde ele alıyor. Bu makale, 1.0 ile en az birkaç klip ürettiğinizi ve neyin yeniden yapılmaya değer olduğunu öğrenmek istediğinizi varsayıyor.
Hızlı özellik karşılaştırması: 1.0 vs 1.5
| Özellik | Grok Imagine 1.0 | Grok Imagine 1.5 |
|---|---|---|
| Maksimum çözünürlük | 720p | 720p |
| Maksimum süre | 10 saniye | 15 saniye |
| En-boy oranları | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Ses | Native, ortak üretim | Native, ortak üretim — geliştirildi |
| Yüz tutarlılığı | Temel düzey | Belirgin şekilde iyileşti |
| Extend from Frame | Son kareden devam | Açık kare seçimi, geliştirilmiş süreklilik |
| Görüntü üretim tabanı | FLUX.1 (Black Forest Labs) | FLUX.1 (Black Forest Labs) |
| Maliyet (480p) | 10 kredi/sn | 10 kredi/sn |
| Maliyet (720p) | 15 kredi/sn | 15 kredi/sn |
| Arena sıralaması | 1. sıranın birkaç altı | Image-to-Video Arena 1. sırası |
Çözünürlük sınırı ve kredi fiyatları değişmedi. Kazanımlar, modelin bu kısıtlamalar içinde ne yaptığında gizli.
Değişiklik 1: native ses tek bir geçişten çıkmış gibi duyuluyor
Grok Imagine, 1.0'dan itibaren ses üretiyor; diyalog, dudak senkronizasyonu, ses efektleri ve ortam müziği, hepsi sonradan eklenen ayrı bir ses modelini gerekmeksizin tek bir çıkarım geçişinde video token'larından oluşturuluyor. Pratikte 1.0 sesinin iki tutarlı sorun kalıbı vardı: diyalogda mekanik zamanlama (kelimeler doğal nefes noktaları yerine dilbilgisel sınırlarda duraklamalar yaparak eşit aralıklarla geliyordu) ve düz ortam sesi (mekânsal çeşitlilik olmaksızın tek düze bir arka plan uğultusuyla bir kafe sahnesi).
1.5 her ikisini de ele alıyor. Aynı single-pass mimarisi artık cümle düzeyinde tonlama üretiyor; kısa ve güçlü ifadeler düşen bir tonlamayla tamamlanırken, daha uzun açıklayıcı konuşmanın çözüm öncesinde cümle ortasında işitilebilir bir yükseliş var. Ortam sesi katmanlı hissettiriyor: bir sokak sahnesi uzakta trafik, yakında ayak sesleri, öznenin arkasında boğuk bir dükkan kapısı sesi üretiyor. Bunlar sonradan işlenmiyor; Aurora motorunun hareket için kullandığı aynı kare kare sıralı mantıkla üretiliyor; burada her kare bir sonrakini bilgilendiriyor ve akustik ortam görsel yörüngeyi izliyor.
1.0'daki prompt: "Bir barista, tezgahın karşı tarafındaki müşteriye demleme sürecini açıklıyor, kafe arka planı, sıcak aydınlatma."
- 1.0 sonucu: diyalog metronom gibi patlamalar halinde geldi, arka plandaki espresso makinesi tüm boyunca sabit bir seviyede çalıştı.
- 1.5 sonucu: baristanın açıklamasında doğal cümle ortası duraklamalar var, başka bir sipariş başladığında espresso makinesi yükseliyor, müşterinin mırıldanan yanıtı daha sessiz ve baskın mikrofon ekseninden uzakta konumlanmış.
Fark en çok diyalog yoğun kliplerde belirgin. Ses çalışması için Grok 1.0 videosunu ayrı bir ses modelinden geçiriyordunuz, 1.5 bu boşluğun büyük bölümünü native olarak kapatıyor.
Değişiklik 2: 10 saniye 15 saniyeye dönüşüyor
Grok Imagine 1.0 klipleri 10 saniyeyle sınırlıyordu. 1.5 bunu 15 saniyeye yükseltiyor; 1-15 arası herhangi bir tam sayı süre destekleniyor. Beş saniyeyi küçük görünüyor. Pratikte bu, bir sosyal medya klibinin tek bir Extend geçişine ihtiyaç duyup duymayacağı ya da ilk üretimde hazır çıkıp çıkmayacağı arasındaki fark.
Standart kullanım senaryoları için kredi hesaplaması anlamlı biçimde değişiyor:
| Kullanım senaryosu | 1.0 (maks. 10sn + Extend ile 15sn) | 1.5 (15sn native) |
|---|---|---|
| 15sn TikTok, 480p | 100 (10sn) + 75 (5sn extend) = 175 | 150 |
| 15sn TikTok, 720p | 150 (10sn) + 112,5 (5sn extend) = 262,5 | 225 |
| 10sn ürün çekimi, 720p | 150 | 150 (değişmedi) |
En yaygın sosyal format olan 15 saniyelik klip için 1.5, 1.0'ın üret-sonra-uzat yaklaşımına kıyasla 480p'de yaklaşık %14, 720p'de yaklaşık %14 daha ucuz — ve extend birleştirme noktasında bazen beliren dikiş artefaktından da kurtuluyorsunuz.
Extend modu, 1.5'te 15 saniyenin ötesine geçmek için hâlâ mevcut; ancak artık yalnızca gerçekten daha fazla süreye ihtiyaç duyan görüntüler için uzatma maliyeti ödüyorsunuz, temel üretim zorla kesme yapmasın diye değil.
Değişiklik 3: yüz doğruluğu ve karakter tutarlılığı
Bu, ölçmesi en zor değişiklik ve topluluk geri bildirimlerinde en tutarlı biçimde dile getirilen değişiklik. Grok Imagine 1.0, açılış karesinde ikna edici bir yüz üretebiliyor ancak onu kaybedebiliyordu; özellikle kafa dönüşleri, aydınlatma geçişleri ya da hızlı hareketler sırasında kareler arasında özellikler dağılıyordu. Referans Modu aracılığıyla tanıtılan karakterler, uzun kliplerde yüz oranlarında kayma yaşıyordu.
1.5 bunu mimari düzeyde ele alıyor. Aurora motorunun sıralı kare üretimi — her karenin öncekinden bilgi aldığı yerde — artık dönüşler ve aydınlatma değişikliklerinde yüz referans noktalarını daha istikrarlı koruyor. Topluluk geri bildirim kalıbı tutarlı: daha önce tekinsiz bozulmalara yol açan kafa dönüşleri artık normal oynatma hızında temiz biçimde tamamlanıyor.
Tek bir Referans Modu promptundaki öncesi/sonrası: "[@Image1] sisle dolu bir sokaktan kameraya doğru yürüyor, yüzü net görünüyor, 8. saniyede hafifçe sağa dönüyor, üstten sıcak sokak lambası ışığı."
- 1.0: özne yürüyüş boyunca tutarlı kimliğini korudu, ancak sağa dönüşte dönüşün orta karesinde belirgin çene genişliği kayması oluştu ve dönüş tamamlandığında aniden geri döndü.
- 1.5: aynı dönüş, düzeltme artefaktı olmadan tamamlandı. Dönüş boyunca çene ve elmacık kemiği oranları korundu.
Bu en çok, bir karakterin yüzünün birincil konu olduğu her kullanım senaryosunda önemli: konuşan kafa içeriği, karakterlerin yönlendirdiği anlatılar, sözcü içeren ürün demoları ve birden fazla çekim boyunca tutarlı kimliği sabitlemek için Referans Modu kullanan tüm klipler.
İpucu
Karakter tutarlılığı Extend Modunda birikerek artıyor. 1.5'te uzatılmış bir klip, orijinal üretimde oluşturulan yüz referans noktası istikrarını koruyor. Uzatmanın birleştiği dikiş, 1.0'a kıyasla daha az fark ediliyor; çünkü her iki segment artık aynı yüz geometrisi temel çizgisini paylaşıyor.
Değişiklik 4: Extend from Frame — klipleri kısa film uzunluğuna zincirleyin
1.0'daki Extend Modu bir klibin sonuna kareler ekliyordu; ancak kontrol yüzeyi sınırlıydı: modele klip verip devam etmesini istiyordunuz. 1.5'te Extend from Frame, açık kare seçimi ekliyor — devam etmek istediğiniz belirli son kareyi seçiyorsunuz ve model tam olarak o görsel durumdan sürdürüyor: aynı özne konumu, aynı aydınlatma yönü, aynı kamera yörüngesi, aynı atmosferik koşullar.
Fark, bir üretimin doğru açılış ve orta bölümü vermesine karşın son karelerin niyetinizden saptığı durumlarda önem taşıyor. 1.0'da kusurlu bir son kare, ya uzatma için tohum olarak kabul etmek ya da tüm klibi yeniden oluşturmak anlamına geliyordu. 1.5'te üretimdeki daha erken bir kareyi — gerçekten devam etmek istediğiniz, daha temiz kompozisyon anını — seçip oradan uzatabilirsiniz.
Uzun prodüksiyonlar için pratik iş akışı:
- 15 saniyelik açılış segmenti oluşturun. İnceleyin, en iyi kapanış karesini belirleyin.
- Extend from Frame'i kullanın, o kareyi seçin, sonraki 15 saniyeyi oluşturun.
- İhtiyaç duyduğunuz süreye ulaşana kadar tekrarlayın.
Her biri 15 saniye olan üç segmentin zinciri, birleştirme noktaları boyunca karakter, aydınlatma ve kamera durumu korunarak 45 saniyelik görüntü üretiyor. Saniye başına 10–15 kredi faturalayan bir modelden ürün demosu, kısa bir reklam veya anlatı giriş sekansı için yeterli.
Not
OmniArt'taki Extend Modu, yalnızca Grok Imagine için değil birden fazla modelde çalışıyor. Açılışı farklı bir modelle oluşturabilir ve devam ettirmek için Grok Imagine 1.5'in Extend from Frame'ini kullanabilirsiniz; böylece karakter tutarlılığı iyileştirmelerini başka bir yerden gelen görüntülere de taşıyabilirsiniz.
+52 Elo gerçekte neyle eşleşiyor
Arena farkı, her birinin günlük prodüksiyonda ne sıklıkla ortaya çıktığına göre ağırlıklandırılmış şu dört değişikliğe bölünüyor:
| Değişiklik | Elo'ya etkisi | Nerede hissedilir |
|---|---|---|
| Ses doğallığı | Yüksek | Diyalog veya katmanlı ortam sesi içeren her klip |
| Native 15 saniyelik süre | Orta | 15 saniyelik sosyal medya formatları; Extend'e bağımlı iş akışları |
| Yüz tutarlılığı | Yüksek | Konuşan yüz içerikleri, Referans Modu karakter çalışması, kafa dönüşleri |
| Extend from Frame | Orta | Çok segmentli prodüksiyonlar, zincirlenmiş klipler |
Arena özellikle görüntüden videoya dönüşümü test ediyor; girdi olarak verilen sabit görüntü canlandırılıyor. Bu bağlamda, yüz tutarlılığı ve ses doğallığı, kör seçmenlerin en çok fark ettiği iki kalite — bu da Elo kazanımının büyük bölümünün nereden geldiğini açıklıyor. Süre ve Extend from Frame, 5 saniyelik klip izleyen kör test seçmeninden ziyade çok çekimli projeler geliştiren deneyimli kullanıcılar için daha önemli.
1.0 projelerinizi yeniden yapmalı mısınız?
Kısa versiyon: yüzün ana konu olduğu her proje için evet, 15 saniyeye ulaşmak için üret-sonra-uzat kalıbıyla inşa ettiğiniz her şey için evet. Geri kalan her şey için karar projeye özgü.
Şimdi yeniden yapın, eğer:
- 1.0'da konuşan yüz veya karakter odaklı klipler ürettiniz ve klip ortasında yüz kaymasına dikkat çektiniz. Aynı Referans Modu girdileri, 1.5'te belirgin şekilde daha temiz sonuçlar üretmeli.
- 15 saniyelik klipleri 10sn + 5sn extend olarak oluşturdunuz ve dikiş artefaktlarıyla karşılaştınız. 1.5'in native 15 saniyelik üretimi birleştirme noktasını ortadan kaldırıyor.
- Ses, yoksa neredeyse tamamlanmış bir klipte son takılma noktasıydı. 1.5'in doğal tonlaması ve katmanlı ortam sesi, görsel tarafı yeniden prompt etmeye gerek kalmadan en yaygın şikâyetleri çözüyor.
Yeniden yapmaya değmez, eğer:
- Klip yalnızca hareket içeriyorsa, karakter veya diyalog yoksa — 720p'deki görsel kalite tavanı değişmedi ve Extend davranışı iyileştirmeleri tek segment çıktısı için marjinal.
- Modify Modunu yoğun biçimde kullanıyorsanız — Modify, işlemeden önce 854×480 üzerindeki tüm girdileri hâlâ otomatik olarak 480p'ye düşürüyor ve bu davranış 1.5'te değişmedi.
- Orijinal, karakter içermeyen kısa (8sn altı) atmosferik B-roll çekimiydi. Ortam sesi iyileştirmesi gerçek, ancak mevcut kredi fiyatlandırmasında yeniden oluşturmayı haklı kılması pek olası değil.
Uyarı
Modify Modunun 480p düşürme sınırı 1.5'te değişmedi. 720p klibini çözünürlük kaybı olmadan düzenlemeniz gerekiyorsa, Modify geçişini son 720p üretiminizden önce yapın, sonra değil.
OmniArt'ta başlayın
Grok Imagine 1.5, OmniArt'ın video çalışma alanında V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 ve Seedance 2.0 ile birlikte kullanılabiliyor. Ayrı bir xAI aboneliği gerekmiyor — aynı OmniArt kredi bakiyesi tüm modelleri kapsıyor.
1.5'i en hızlı kalibre etme yolu, 1.0'dan halihazırda bildiğiniz bir prompt çalıştırmaktır. Aynı girdi, yan yana çıktı, yüz ve ses iyileştirmeleri temel çizginizle karşılaştırıldığında hemen görünür. Oradan başlayın, ardından hangi 1.0 projelerinin gerçekten yeniden yapılmaya değer olduğuna karar verin.
Altı modun tam dökümü, kredi hesaplaması ve Referans Modu prompt kalıpları için Grok Imagine rehberine bakın. Grok Imagine'in görüntüden videoya sıralamasının 2026 genel manzarasına nereye oturduğuna ilişkin çok modelli karşılaştırma için en iyi görüntüden videoya yapay zeka modelleri listesi güncel sıralamaları içeriyor.
Oluşturmaya hazır mısınız?
AI ile harika içerikler üretmeye başlayın