Grok Imagine 1.5 vs 1.0: apa yang sebenarnya berubah dengan +52 Elo
Grok Imagine 1.5 dari xAI naik +52 Elo dibanding 1.0 dan meraih posisi ke-1 di Image-to-Video Arena. Kami menguraikan perbedaannya menjadi empat perubahan yang langsung dirasakan kreator: audio native, klip 15 detik, konsistensi wajah, dan Extend from Frame — dengan perbandingan sebelum/sesudah di OmniArt.

Grok Imagine 1.5 hadir sebagai pembaruan Preview dan langsung membuat perbedaan: +52 Elo dibanding 1.0, melompat ke puncak Image-to-Video Arena mengalahkan Seedance 2.0, HappyHorse 1.0, dan Google Veo dalam pengujian pengguna secara buta. Lompatan 52 poin dalam leaderboard yang sudah matang adalah sinyal yang berarti — itu setara dengan tingkat kemenangan sekitar 57% untuk 1.5 dalam pertandingan langsung melawan 1.0.
Angka itu adalah judul beritanya. Yang penting untuk pekerjaan produksi adalah perubahan spesifik mana yang mendorongnya. Kami telah menjalankan 1.5 berdampingan dengan 1.0 di ruang kerja video OmniArt, dan kemajuannya secara jelas berasal dari empat hal yang langsung dirasakan para kreator. Tidak ada yang halus.
Jika Anda baru dengan Grok Imagine, mulailah dengan panduan dasar terlebih dulu — panduan itu mencakup enam mode generasi, pola prompt, dan perhitungan kredit secara detail. Artikel ini mengasumsikan Anda sudah membuat setidaknya beberapa klip dengan 1.0 dan ingin tahu apa yang layak dibuat ulang.
Perbandingan spesifikasi cepat: 1.0 vs 1.5
| Spesifikasi | Grok Imagine 1.0 | Grok Imagine 1.5 |
|---|---|---|
| Resolusi maksimal | 720p | 720p |
| Durasi maksimal | 10 detik | 15 detik |
| Rasio aspek | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Audio | Native, generasi bersama | Native, generasi bersama — ditingkatkan |
| Konsistensi wajah | Level dasar | Meningkat secara nyata |
| Extend from Frame | Kelanjutan dari frame terakhir | Pemilihan frame eksplisit, kontinuitas lebih baik |
| Basis generasi gambar | FLUX.1 (Black Forest Labs) | FLUX.1 (Black Forest Labs) |
| Biaya (480p) | 10 kredit/det | 10 kredit/det |
| Biaya (720p) | 15 kredit/det | 15 kredit/det |
| Peringkat Arena | Beberapa posisi di bawah peringkat 1 | Peringkat 1 Image-to-Video Arena |
Batas resolusi dan harga kredit tidak berubah. Kemajuannya ada pada apa yang dilakukan model dalam batasan tersebut.
Perubahan 1: audio native terdengar seperti satu kali proses
Grok Imagine telah menghasilkan audio sejak 1.0 — dialog, sinkronisasi bibir, efek suara, dan musik ambien, semuanya dibangun dari token video dalam satu proses inferensi tanpa model audio terpisah yang ditempel setelahnya. Dalam praktiknya, audio 1.0 memiliki dua pola kegagalan yang konsisten: timing dialog yang mekanis (kata-kata tiba dalam interval yang merata, berhenti di batas gramatikal bukan di titik napas alami) dan ambiens yang datar (adegan kedai kopi dengan satu desiran latar belakang yang tidak dibedakan, tanpa variasi spasial).
1.5 mengatasi keduanya. Arsitektur single-pass yang sama sekarang menghasilkan intonasi level kalimat — frasa pendek dan tegas berakhir dengan intonasi turun, ucapan penjelasan yang lebih panjang memiliki naik yang terdengar di tengah kalimat sebelum resolusi. Ambiens terasa berlapis: adegan jalanan menghasilkan lalu lintas di kejauhan, langkah kaki di dekatnya, suara pintu toko yang teredam di belakang subjek. Ini bukan hasil pemrosesan pascaproduksi; semuanya dihasilkan dengan logika sekuensial frame demi frame yang sama yang digunakan mesin Aurora untuk gerakan, di mana setiap frame memberitahu frame berikutnya dan lingkungan akustik mengikuti lintasan visual.
Prompt di 1.0: "Seorang barista menjelaskan proses penyeduhan kepada pelanggan di seberang meja, latar belakang kedai kopi, pencahayaan hangat."
- Hasil di 1.0: dialog tiba dalam ledakan berulang secara mekanis, mesin espresso di latar belakang berjalan pada satu tingkat konstan sepanjang waktu.
- Hasil di 1.5: penjelasan barista memiliki jeda alami di tengah kalimat, mesin espresso membangun suaranya saat pesanan lain dimulai, respons bergumam pelanggan lebih pelan dan diposisikan secara spasial lebih jauh dari sumbu mikrofon dominan.
Perbedaannya paling jelas dalam klip yang banyak dialognya. Jika Anda selama ini merutekan video Grok 1.0 melalui model audio terpisah untuk pekerjaan suara, 1.5 menutup sebagian besar celah tersebut secara native.
Perubahan 2: 10 detik menjadi 15 detik
Grok Imagine 1.0 membatasi klip hingga 10 detik. 1.5 meningkatkannya menjadi 15 detik, dengan durasi bulat berapa pun dari 1–15 yang didukung. Lima detik ekstra terdengar kecil. Dalam praktiknya itu adalah perbedaan antara klip media sosial yang butuh satu kali Extend dan klip yang selesai pada generasi pertama.
Perhitungan kredit berubah secara berarti untuk kasus penggunaan standar:
| Kasus penggunaan | 1.0 (maks. 10d + Extend untuk 15d) | 1.5 (15d native) |
|---|---|---|
| TikTok 15d, 480p | 100 (10d) + 75 (5d extend) = 175 | 150 |
| TikTok 15d, 720p | 150 (10d) + 112,5 (5d extend) = 262,5 | 225 |
| Produk 10d, 720p | 150 | 150 (tidak berubah) |
Untuk format sosial yang paling umum — klip 15 detik — 1.5 lebih murah sekitar 14% di 480p dan 14% di 720p dibandingkan pendekatan generate-then-extend di 1.0, dan Anda menghindari artefak jahitan yang kadang muncul di titik sambungan extend.
Mode Extend itu sendiri masih tersedia di 1.5 untuk melampaui 15 detik, tetapi Anda hanya membayar biaya ekstensi pada footage yang benar-benar membutuhkan lebih banyak waktu tayang, bukan karena generasi dasar memaksa pemotongan.
Perubahan 3: akurasi wajah dan konsistensi karakter
Ini adalah perubahan yang paling sulit untuk diukur dan paling konsisten disebutkan dalam umpan balik komunitas. Grok Imagine 1.0 bisa menghasilkan wajah yang meyakinkan di frame pembuka dan kehilangannya — fitur-fitur berubah bentuk di antara frame, terutama saat gerakan kepala, transisi pencahayaan, atau gerakan cepat. Karakter yang diperkenalkan melalui Mode Referensi mengalami penyimpangan proporsi wajah di seluruh klip yang lebih panjang.
1.5 mengatasi ini di tingkat arsitektur. Generasi frame sekuensial mesin Aurora — di mana setiap frame diinformasikan oleh frame sebelumnya — sekarang mempertahankan titik referensi wajah dengan lebih stabil selama rotasi dan perubahan pencahayaan. Pola umpan balik komunitas konsisten: gerakan kepala yang sebelumnya menghasilkan deformasi yang tidak wajar sekarang selesai dengan bersih pada kecepatan putar normal.
Sebelum/sesudah pada satu prompt Mode Referensi: "[@Image1] berjalan menuju kamera melalui gang berkabut, wajah terlihat jelas, berbalik sedikit ke kanan pada 8 detik, cahaya jalan hangat dari atas."
- 1.0: subjek mempertahankan identitas yang konsisten selama berjalan, kemudian belokan ke kanan menghasilkan pergeseran lebar rahang yang nyata di frame tengah belokan yang kembali lagi saat selesai.
- 1.5: belokan yang sama selesai tanpa artefak koreksi. Proporsi rahang dan tulang pipi terjaga selama rotasi.
Ini paling penting untuk kasus penggunaan apa pun di mana wajah karakter adalah subjek utama — konten talking head, narasi yang digerakkan karakter, demo produk dengan juru bicara, dan klip apa pun yang menggunakan Mode Referensi untuk mengunci identitas yang konsisten di beberapa shot.
Tips
Konsistensi karakter terakumulasi di Mode Extend. Di 1.5, klip yang diperpanjang mempertahankan stabilitas titik referensi wajah yang ditetapkan dalam generasi asli. Jahitan di mana ekstensi bergabung kurang terdeteksi dibanding 1.0 karena kedua segmen sekarang berbagi basis geometri wajah yang sama.
Perubahan 4: Extend from Frame — rangkai klip hingga panjang film pendek
Mode Extend di 1.0 menambahkan frame ke akhir klip, tetapi permukaan kontrol terbatas: Anda menyerahkan klip ke model dan memintanya untuk melanjutkan. Di 1.5, Extend from Frame menambahkan pemilihan frame eksplisit — Anda memilih frame akhir tertentu yang ingin dilanjutkan, dan model melanjutkan dari kondisi visual yang tepat itu: posisi subjek yang sama, arah pencahayaan yang sama, lintasan kamera yang sama, kondisi atmosfer yang sama.
Perbedaannya penting ketika generasi menghasilkan pembukaan dan tengah yang benar tetapi frame akhir menyimpang dari niat Anda. Di 1.0, frame akhir yang tidak sempurna berarti menerimanya sebagai benih untuk ekstensi atau mengulang seluruh klip. Di 1.5, Anda bisa memilih frame dari lebih awal dalam generasi — momen komposisi yang lebih bersih yang sebenarnya ingin Anda lanjutkan — dan extend dari sana.
Alur kerja praktis untuk produksi yang lebih panjang:
- Buat segmen pembuka 15 detik. Tinjau, identifikasi frame penutup terbaik.
- Gunakan Extend from Frame, pilih frame itu, buat 15 detik berikutnya.
- Ulangi hingga Anda mencapai durasi yang dibutuhkan.
Rantai tiga segmen masing-masing 15 detik menghasilkan 45 detik footage dengan karakter, pencahayaan, dan kondisi kamera yang dipertahankan di seluruh sambungan. Cukup untuk demo produk, iklan singkat, atau urutan intro naratif — dari model yang menagih per detik dengan harga 10–15 kredit.
Catatan
Mode Extend di OmniArt bekerja lintas model, bukan hanya Grok Imagine. Anda bisa membuat pembukaan dengan model berbeda dan menggunakan Extend from Frame Grok Imagine 1.5 untuk melanjutkannya, membawa peningkatan konsistensi karakter ke footage yang berasal dari tempat lain.
Apa yang sebenarnya dipetakan oleh +52 Elo
Selisih arena terbagi dalam empat perubahan ini, dibobotkan berdasarkan seberapa sering masing-masing muncul dalam produksi sehari-hari:
| Perubahan | Dampak pada Elo | Di mana Anda merasakannya |
|---|---|---|
| Kealamian audio | Tinggi | Klip apa pun dengan dialog atau ambien berlapis |
| Durasi native 15d | Sedang | Format sosial 15 detik; alur kerja yang bergantung pada Extend |
| Konsistensi wajah | Tinggi | Talking head, pekerjaan karakter Mode Referensi, gerakan kepala |
| Extend from Frame | Sedang | Produksi multi-segmen, klip berantai |
Arena menguji image-to-video secara spesifik — still gambar masukan dianimasikan. Dalam konteks itu, konsistensi wajah dan kealamian audio adalah dua kualitas yang paling diperhatikan oleh pemilih buta, yang menjelaskan dari mana sebagian besar keuntungan Elo berasal. Durasi dan Extend from Frame lebih penting untuk pengguna berpengalaman yang membangun proyek multi-shot daripada pemilih uji buta yang menonton klip 5 detik.
Haruskah Anda membuat ulang proyek 1.0?
Versi singkatnya: ya untuk proyek apa pun di mana wajah adalah subjek utama, dan ya untuk apa pun yang Anda bangun dengan pola generate-then-extend untuk mencapai 15 detik. Untuk yang lainnya, keputusan bergantung pada proyeknya.
Buat ulang sekarang jika:
- Anda memproduksi klip talking head atau berfokus karakter di 1.0 dan melihat wajah bergeser di tengah klip. Input Mode Referensi yang sama seharusnya menghasilkan hasil yang jauh lebih bersih di 1.5.
- Anda membuat klip 15 detik sebagai 10d + 5d extend dan mengalami artefak jahitan. Generasi native 15 detik 1.5 menghilangkan titik sambungan.
- Audio adalah hambatan terakhir pada klip yang sudah hampir selesai. Intonasi alami dan ambien berlapis 1.5 menyelesaikan keluhan paling umum tanpa perlu mengulang sisi visual.
Tidak worth dibuat ulang jika:
- Klip hanya bergerak tanpa karakter atau dialog — batas kualitas visual di 720p tidak berubah, dan peningkatan perilaku Extend bersifat marjinal untuk output segmen tunggal.
- Anda banyak menggunakan Mode Modify — Modify masih secara otomatis menurunkan skala semua input di atas 854×480 ke 480p sebelum diproses, dan perilaku tersebut tidak berubah di 1.5.
- Aslinya adalah shot B-roll atmosferik pendek (di bawah 8d) tanpa karakter. Peningkatan audio ambien memang nyata, tetapi kemungkinan tidak cukup untuk membenarkan regenerasi pada harga kredit saat ini.
Peringatan
Batas downscale 480p Mode Modify tidak berubah di 1.5. Jika Anda perlu mengedit klip 720p tanpa kehilangan resolusi, lakukan proses Modify sebelum generasi 720p akhir Anda, bukan setelahnya.
Mulai di OmniArt
Grok Imagine 1.5 tersedia di ruang kerja video OmniArt bersama V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0, dan Seedance 2.0. Tidak diperlukan langganan xAI terpisah — saldo kredit OmniArt yang sama mencakup semua model.
Cara tercepat untuk mengkalibrasi 1.5 adalah menjalankan prompt yang sudah Anda kenal dari 1.0. Input yang sama, output berdampingan, dengan peningkatan wajah dan audio yang langsung terlihat dibandingkan baseline Anda. Mulai dari sana, lalu putuskan proyek 1.0 mana yang benar-benar worth untuk dibuat ulang.
Untuk uraian lengkap enam mode, perhitungan kredit, dan pola prompt Mode Referensi, lihat panduan Grok Imagine. Untuk perbandingan multi-model di mana peringkat image-to-video Grok Imagine masuk dalam gambaran besar 2026, daftar model AI image-to-video terbaik berisi peringkat terkini.
Siap membuat?
Mulai hasilkan konten menakjubkan dengan AI