Grok Imagine: panduan kreator untuk model video xAI di 2026
Panduan praktis Grok Imagine — enam mode generasi, pola prompt, matematika biaya nyata, dan kapan memilihnya daripada V6 atau Sora 2 di 2026.

Grok Imagine adalah model generasi video dan audio xAI, diluncurkan Januari 2026 dan dapat diakses melalui OmniArt tanpa langganan xAI terpisah. Produk berbeda dari chatbot Grok — mereka berbagi nama dan tidak lebih. Panduan ini mencakup kegunaan Grok Imagine, enam mode generasi yang penting, pola prompt yang menghormati masing-masing mode, dan matematika biaya proyek nyata dalam kredit.
Apa itu Grok Imagine
Grok Imagine menghasilkan video hingga 720p dengan audio native dalam klip 1–15 detik. Trik headline bukan resolusi — di 720p model sengaja tidak bersaing Sora 2 atau V6 pada fidelitas mentah. Trik headline adalah permukaan alur kerja di sekitar model: enam mode generasi yang berbagi satu weight set dan memungkinkan Anda generate, extend, restyle, dan modify tanpa meninggalkan model.
| Spesifikasi | Nilai |
|---|---|
| Resolusi maksimum | 720p (gunakan V6 untuk 1080p+) |
| Durasi maksimum | 15 detik per generasi |
| Rasio aspek | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Audio | Native, dihasilkan bersama video |
| Biaya (480p) | 10 kredit per detik |
| Biaya (720p) | 15 kredit per detik |
Enam mode yang perlu Anda ketahui
Setiap mode adalah cara berbeda memberitahu model jenis input yang sedang dikerjakan. Memilih mode yang tepat adalah sebagian besar pekerjaan prompt engineering.
Text-to-Video
Default. Tulis prompt, dapatkan klip. Terbaik untuk eksplorasi konsep, mood board, dan draft sosial saat Anda belum punya gambar referensi. Biaya 10–15 kredit per detik tergantung resolusi.
Image-to-Video
Menganimasi still sambil mempertahankan komposisi input. Frame pertama dikunci ke gambar Anda. Gunakan untuk menganimasi ilustrasi, fotografi produk, dan mockup desain di mana frame sumber non-negotiable.
Reference Mode — pembeda
Reference Mode menerima 1–7 gambar sebagai jangkar visual tanpa mengunci frame pertama. Anda tag gambar dengan @Image1, @Image2, @Image3 dan referensikan di prompt. Ini yang kebanyakan model video lain tidak punya — kebanyakan either mengunci frame pertama (image-to-video) atau tidak menerima referensi sama sekali (text-to-video). Reference Mode di tengah, dan jalur paling bersih ke konsistensi karakter across banyak shot.
Biaya 15 kredit per detik di 480p, 22,5 di 720p.
Extend Mode
Menambahkan 2–10 detik ke klip existing. Input MP4 antara 2 dan 15 detik. Output satu klip kontinu; billing hanya mencakup bagian yang ditambahkan. Trik cross-model: Extend Mode bekerja pada video yang dihasilkan model manapun di workspace video OmniArt, bukan hanya Grok.
Modify Mode
Mengedit klip existing tanpa regenerasi — swap background, perubahan pencahayaan, shift warna pada objek spesifik, efek cuaca. Input dibatasi 8 detik dan auto-scale ke 854×480, artinya sumber high-resolution kehilangan detail dalam round trip. Gunakan Modify pada klip yang Anda generate di 480p anyway.
Editing Suite — Restyle, Object Manipulation, Sketches to Life
Rangkaian operasi pasca-generasi. Restyle menerapkan gaya artistik (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic). Object Manipulation menambah, menghapus, atau swap elemen. Sketches to Life menganimasi line drawing. Add Performance menempel animasi karakter pada figur statis. Berguna membuat banyak variasi dari satu klip sumber.
Prompt yang menghormati model
Empat kebiasaan mengangkat kualitas lebih cepat daripada prompt lebih panjang.
Gunakan bahasa sinematik
Grok Imagine punya enam preset kamera built-in: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Mereka aktif lebih presisi saat prompt memakai istilah sinematografi.
| Lebih lemah | Lebih kuat |
|---|---|
| "A city street at night with neon signs and people walking" | "Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing" |
Tag referensi eksplisit
Reference Mode degrade saat prompt generik. Bind setiap referensi ke peran.
"@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel."
Muat aksi di depan
Generasi berjalan sequential sepanjang durasi. Jika klimaks di akhir klip 5 detik, model mungkin tidak menyelesaikannya. Pindahkan aksi ke depan.
| Lebih lemah | Lebih kuat |
|---|---|
| "A quiet forest scene with birds, then suddenly a deer leaps across a stream" | "A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches" |
Pace klip 10–15 detik pada timeline
Untuk klip lebih panjang, tulis timing ke prompt.
"Slow zoom into abandoned library (0–5s), dust particles catch light beams (5–10s), book falls from shelf (10–12s), pages flutter (12–15s)."
Berapa biaya sebenarnya
Tiga skenario shot nyata, dihargai dalam kredit OmniArt.
Video produk TikTok 15 detik
| Langkah | Mode | Resolusi | Biaya |
|---|---|---|---|
| Generasi awal | Text-to-Video | 480p, 10s | 100 |
| Extend | Extend | 480p, 5s | 75 |
| Total (satu revisi) | 175–275 |
Storyboard brand 3 shot
| Langkah | Mode | Resolusi | Biaya |
|---|---|---|---|
| Shot 1 dengan 2 ref | Reference, 8s | 720p | 180 |
| Shot 2, ref sama | Reference, 8s | 720p | 180 |
| Shot 3, ref sama | Reference, 6s | 720p | 135 |
| Perbaikan pencahayaan Shot 2 | Modify, 8s | 720p | 180 |
| Total | 675 |
Pass restyle
| Langkah | Mode | Resolusi | Biaya |
|---|---|---|---|
| Restyle ke Anime | Restyle, 8s | 480p | 120 |
Kapan memilih model berbeda
Grok Imagine alat tepat untuk sosial short-form, pekerjaan sketch-to-life, dan cerita multi-shot berbasis referensi di 480p–720p. Alat salah saat:
| Kebutuhan | Pilihan lebih baik |
|---|---|
| 1080p atau lebih tinggi | V6, BACH, Veo 3 |
| Kontrol lensa lanjutan (focal length, DOF, aberration) | V6 |
| Klip 16–20 detik dalam satu pass | Sora 2 |
| Dialog dan musik production-grade | Model audio dedicated + edit |
| Preservasi sumber high-resolution dalam edit | Hindari Modify Mode |
Pola alur kerja yang ship
Cara Grok Imagine membuahkan hasil di OmniArt bukan sebagai generator standalone — melainkan sebagai lapisan iterasi. Dua pola paling menguntungkan.
Pola 1 — generate di tempat lain, refine di sini. Render master clip dengan V6 atau Sora 2 di resolusi lebih tinggi, lalu gunakan Extend, Restyle, dan Modify untuk spin variasi dan penambahan di Grok dengan biaya lebih rendah.
Pola 2 — Reference Mode untuk character lock. Saat kampanye brand butuh karakter sama di lima shot, kunci identitas dengan satu gambar anchor di @Image1, lalu generate setiap shot dengan referensi sama di Reference Mode. Lebih murah daripada re-roll Sora 2 untuk setiap shot.
Warning
Modify Mode auto-scale input di atas 854×480 turun ke 480p sebelum processing. Jika Anda perlu edit klip 1080p tanpa kehilangan resolusi, render edit di tempat lain atau lakukan edit sebelum langkah upscale.
Memulai di OmniArt
Grok Imagine tersedia di workspace video OmniArt bersama V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0, dan Seedance 2.0. Saldo kredit sama, upload referensi sama, tata bahasa prompt sama. Mulai di Text-to-Video untuk mempelajari preset kamera, lalu naik ke Reference Mode setelah Anda punya karakter atau produk untuk dikunci.
Pasangkan panduan ini dengan breakdown sinematografer BACH untuk pekerjaan naratif higher-fidelity, atau shortlist image-to-video terbaik jika Anda memilih model untuk shot spesifik.