Dari foto produk ke iklan bergerak: praktik terbaik Grok Imagine 1.5 untuk gambar ke video
Mode terkuat Grok Imagine 1.5 adalah mengubah foto produk bersih menjadi iklan bergerak. Aturan gambar sumber, formula prompt lima bagian, alur kerja 480p-720p, dan empat contoh lengkap di OmniArt.

Mode gambar ke video Grok Imagine 1.5 memiliki satu tugas yang dilakukannya dengan sangat baik: mengambil foto produk yang bersih dan mengubahnya menjadi klip iklan bergerak tanpa perlu membangun ulang produk dari deskripsi teks. Mesin Aurora menambatkan posisi subjek, pencahayaan, dan lintasan kamera dari gambar sumber Anda, sehingga sneaker tetap berwarna putih yang tepat dan angka pada dial jam tangan tetap terbaca — sesuatu yang tidak bisa dijamin oleh pembuatan video dari teks untuk produk yang benar-benar Anda jual.
Panduan ini membahas tiga pilar inti yang menentukan apakah klip Grok Imagine 1.5 mode gambar ke video dapat digunakan pada percobaan pertama: kualitas gambar sumber, konstruksi prompt, dan alur kerja resolusi 480p ke 720p. Empat contoh lengkap — sneaker, jam tangan, tas tangan, dan produk kecantikan — menunjukkan setiap pilar dari awal hingga akhir.
Untuk alur kerja iklan e-commerce yang lebih luas yang mencakup pemilihan model, format platform, dan audio, lihat Ubah foto produk menjadi iklan video dengan OmniArt. Artikel ini fokus secara khusus pada mendapatkan hasil terbaik dari Grok Imagine 1.5.
Apa yang Grok Imagine 1.5 bawa ke gambar ke video
| Spesifikasi | Nilai |
|---|---|
| Resolusi | Hingga 720p |
| Frame rate | 24 fps |
| Durasi | 1–15 detik |
| Audio native | Ya — dihasilkan dalam inferensi yang sama |
| Basis gambar | FLUX.1 (Black Forest Labs) |
| Peringkat arena | Peringkat 1 di Image-to-Video Arena (+52 Elo di atas versi 1.0) |
Basis FLUX.1 adalah alasan mengapa prompting bahasa alami bekerja di sini. Anda mendeskripsikan pengambilan gambar seperti yang akan Anda briefkan kepada operator kamera, bukan menumpuk kata kunci dalam kosakata OpenCLIP. Mesin Aurora kemudian menggunakan gambar sumber sebagai referensi spasial dominan — menjaga siluet, warna, dan posisi relatif subjek tetap stabil sementara kamera dan cahaya bergerak di sekitarnya.
OmniArt menghadirkan Grok Imagine di workspace video berdampingan dengan semua model lain, sehingga tidak diperlukan langganan xAI terpisah. Tarif kredit adalah 10 kredit per detik di 480p dan 15 kredit per detik di 720p — artinya draf 5 detik di 480p menghabiskan 50 kredit dan yang sama di 720p menghabiskan 75.
Pilar 1: Kualitas gambar sumber
Mesin Aurora menambatkan komposisi dari frame sumber. Input yang kuat menghasilkan gerakan yang tertambat; input yang lemah memperkenalkan drift — model menginterpolasi ulang apa yang tidak bisa dibacanya dengan jelas, dan akurasi pun menurun.
Daftar periksa gambar sumber
| Lakukan | Jangan |
|---|---|
| Gunakan latar belakang yang bersih dan tidak berantakan (putih, abu-abu terang, atau konteks lifestyle dengan ruang bernapas) | Gunakan latar belakang yang terlalu sibuk sehingga produk menghilang di dalamnya |
| Foto atau potong agar produk mengisi 50–70% frame | Gunakan foto produk yang terpotong berlebihan atau tepi yang terpangkas |
| Pertahankan kontras tinggi antara subjek dan latar belakang | Gunakan foto produk yang warnanya mirip dengan latar belakang |
| Jaga teks, logo, dan label tetap fokus dan terbaca | Gunakan gambar dengan artefak kompresi JPEG yang parah |
| Bekerja dari sumber resolusi tertinggi yang Anda miliki (minimal 1024 × 1024) | Gunakan gambar resolusi thumbnail atau gambar web yang diperkecil |
| Gunakan satu subjek utama per frame | Gunakan flat lay berkelompok dengan lima produk |
| Pastikan detail yang mendefinisikan produk (sol, dial, gesper, tutup) terlihat jelas | Gunakan sudut yang menyembunyikan fitur utama produk |
Peringatan
Mengapa ini lebih penting untuk Grok daripada teks ke video
Dengan teks ke video Anda mendeskripsikan produk dan model menciptakan yang sesuai dengan kata-kata Anda. Dengan gambar ke video model berkomitmen untuk menghormati produk nyata Anda — tetapi hanya sejauh ia bisa membacanya dari frame sumber. Foto resolusi rendah atau ambigu secara visual adalah alasan paling umum mengapa hasil Grok Imagine 1.5 mode gambar ke video mengecewakan.
Pilar 2: Formula prompt lima bagian
Grok Imagine 1.5 menggunakan FLUX.1 sebagai fondasi gambar, yang memberikan penghargaan pada deskripsi bahasa alami daripada rangkaian kata kunci. Lima bagian di bawah ini memetakan ke apa yang bisa langsung ditindaklanjuti oleh mesin gerakan Aurora.
Formula
[Aksi] — [Pencahayaan] — [Tempo] — [Latar belakang] — [Nuansa/referensi]
Setiap bagian secara detail:
-
Aksi — gerakan kamera atau subjek. Jadilah spesifik: "dolly masuk lambat dari ketinggian pinggang", "pan orbital mengelilingi sisi kiri", "mengambang vertikal lembut, 3 cm ke atas dan kembali". Istilah samar seperti "dinamis" memberi model terlalu banyak kebebasan dan menghasilkan hasil yang tidak konsisten.
-
Pencahayaan — deskripsikan arah cahaya, kualitas, dan sumbernya. "Rim light dari belakang dengan key light tungsten hangat di kiri kamera" mengalahkan "pencahayaan dramatis". Suhu warna spesifik ("3200K", "5600K daylight") atau kualitas cahaya yang disebutkan ("fill softbox", "bayangan keras 45 derajat") menambatkan tampilan.
-
Tempo — kecepatan dan ritme gerakan. "Push lambat 2 detik, tidak ada akselerasi", "nuansa pemutaran 0,5×", "tidak terburu-buru, editorial". Tanpa tempo yang eksplisit, model menggunakan gerakan sedang sebagai default, yang terlalu cepat untuk pekerjaan produk hero.
-
Latar belakang — apakah harus tetap diam, bergeser sedikit, atau berkontribusi pada adegan. "Cyclorama putih, tidak ada gerakan latar belakang", "permukaan marmer bokeh yang diburamkan, pergeseran cahaya halus", "kekosongan studio, tidak ada detail lingkungan". Mengabaikan ini sering menghasilkan drift latar belakang yang tidak diinginkan.
-
Nuansa dan referensi kamera — satu frasa yang mengkalibrasi register keseluruhan. Referensi peralatan lebih dapat diandalkan daripada kata sifat: "diambil di Fujifilm XT4" mengalahkan "sinematik"; "nuansa iklan cetak mewah" mengalahkan "kelas atas"; bulan + waktu tertentu ("pagi Januari, 9 pagi studio") mengalahkan "golden hour".
Tips
Yang harus dihilangkan
Jangan sertakan nama merek, wajah orang, atau referensi ke tempat nyata. Jangan menumpuk sinonim ("mewah premium kelas tinggi") — prompting bahasa alami FLUX.1 tidak mendapatkan apa-apa darinya dan menambah kebisingan. Satu kalimat jelas per bagian lebih baik daripada tiga kata sifat yang terfragmentasi.
Pilar 3: Alur kerja resolusi 480p ke 720p
Perbedaan biaya kredit antara 480p dan 720p adalah 5 kredit per detik — tidak signifikan untuk satu klip, tetapi bermakna ketika Anda mengiterasi prompt dan gerakan sebelum berkomitmen.
Alur kerja yang disarankan
| Langkah | Resolusi | Tujuan | Biaya (klip 5 detik) |
|---|---|---|---|
| 1. Ideasi prompt | 480p | Uji gerakan kamera dan stabilitas subjek | 50 kredit |
| 2. Penyempurnaan gerakan | 480p | Sesuaikan tempo, latar belakang, dan prompt pencahayaan | 50 kredit per iterasi |
| 3. Output final | 720p | Master bersih untuk media sosial atau pitch deck | 75 kredit |
Tiga iterasi 480p ditambah satu final 720p berjumlah 225 kredit — sama dengan tiga render 720p. Disiplin kuncinya adalah tidak beralih ke 720p sampai draf 480p memiliki gerakan dan komposisi yang Anda inginkan. Mesin Aurora menskalakan klip yang sama, sehingga hasil yang lulus di 480p akan menjadi output 720p yang lulus secara konsisten.
Catatan
Empat contoh lengkap
Contoh 1: Hero push sneaker
Produk: Sneaker low-top putih, foto tiga perempat di atas meja putih, dengan refleksi bersih.
Pengaturan gambar sumber: Difoto dari sedikit di atas pada sudut 45 derajat, sol terlihat, simpul tali sepatu tajam, label lidah terbaca. Diekspor pada 2048 × 2048, tanpa kompresi.
Prompt:
"Dolly lambat masuk dari jarak menengah ke close-up pada kotak jari kaki, berhenti ketika sol mengisi sepertiga frame. Bayangan keras dari cahaya alami overhead yang menyapu dari kiri ke kanan. Tempo santai, nuansa 0,3×. Latar belakang infinity putih, tidak ada gerakan. Diambil di Leica SL2, register editorial alas kaki mewah."
Yang ditambahkan gerakan: Push bertahap mengungkap tekstur material kotak jari kaki dan tepi sol secara berurutan — informasi yang tidak bisa dikomunikasikan foto datar. Bayangan cahaya alami yang menyapu panel samping menunjukkan kualitas permukaan tanpa voiceover.
Audio: Grok menghasilkan nada ruangan ambient yang samar dan suara material halus saat sol masuk ke frame — hapus atau lapisi di bawah musik sesuai kebutuhan.
Contoh 2: Orbit reveal jam tangan
Produk: Jam tangan dress dari baja tahan karat, flat lay di atas kertas abu-abu bertekstur, menghadap ke atas dengan strap dilepas.
Pengaturan gambar sumber: Dial mengisi 60% frame, indeks terbaca, detail mahkota terlihat di kanan. Difoto pada 2000 × 2000, cahaya difus merata.
Prompt:
"Pan orbital lambat dimulai dari posisi jam 9, berjalan searah jarum jam di sekitar dial jam tangan, menyelesaikan 180 derajat selama 8 detik. Fill softbox dari atas, rim specular keras dari kanan kamera pada 4500K. Tidak ada akselerasi tempo. Permukaan linen abu-abu pucat, latar belakang stasioner. Gaya editorial pembuat jam studio."
Yang ditambahkan gerakan: Orbit menangkap kilau metalik tepi casing dan jarum dari beberapa sudut dalam satu lintasan — detail produk yang biasanya memerlukan empat foto terpisah untuk dikomunikasikan. Busur 180 derajat menjaga dial tetap terbaca sepanjang waktu.
Audio: Mesin Aurora menghasilkan ambiens mekanis yang samar — tipis, tepat, sesuai untuk konteks pembuatan jam. Berguna sebagai dasar di bawah voiceover.
Contoh 3: Float dan pendaratan tas tangan
Produk: Tas tangan kulit berstruktur warna tan, berdiri tegak di depan latar belakang krem hangat, hardware terlihat.
Pengaturan gambar sumber: Wajah depan di tengah frame, simpul pegangan atas terlihat, kepala ritsleting tajam. Difoto pada 1800 × 1800.
Prompt:
"Tas mengambang 6 cm di atas permukaan, bertahan 2 detik di puncak, kemudian mendarat lembut kembali ke bawah. Cahaya hampir tidak bergerak. Fill ambient hangat 3200K dari atas kiri, sorotan kulit halus dari bawah kanan. Tempo yang disengaja dan terkendali. Latar belakang infinity krem, tidak ada gerakan lingkungan. Register katalog mode mewah, diambil di Hasselblad medium format."
Yang ditambahkan gerakan: Float-and-settle menciptakan rasa berat dan substansi material — tas berperilaku seperti objek fisik daripada potongan gambar. Jeda di puncak memberi waktu penonton untuk membaca hardware dan detail jahitan.
Audio: Nada ruangan minimal; pendaratan kembali menghasilkan suara kontak permukaan yang samar yang memperkuat fisikalitas.
Contoh 4: Rotasi produk kecantikan dengan kondensasi
Produk: Botol serum bermatte finish, tegak, tutup dropper perak, label putih.
Pengaturan gambar sumber: Botol mengisi 55% frame, teks label tajam, detail tutup terlihat, latar belakang putih bersih. Difoto pada 1920 × 1920.
Prompt:
"Rotasi berlawanan arah jarum jam yang lambat, 360 derajat penuh selama 10 detik. Kondensasi kelembaban halus terbentuk di permukaan kaca saat rotasi dimulai dan tersebar pada titik setengah jalan. Cahaya siang lembut dan dingin dari atas pada 6000K, rim light dari belakang. Tempo stabil dan santai. Latar belakang studio putih, tidak ada drift. Estetika kampanye skincare, diambil di Phase One IQ4."
Yang ditambahkan gerakan: Efek kondensasi mengomunikasikan kemanjuran dan kesegaran — dua ide yang konseptual mahal untuk disampaikan dalam foto diam. Rotasi penuh menampilkan teks label belakang dan mekanisme dropper dari setiap sudut.
Peringatan
Mode kegagalan umum dan perbaikan
| Masalah | Kemungkinan penyebab | Perbaikan |
|---|---|---|
| Teks label kabur atau terdistorsi selama gerakan | Gambar sumber terkompresi atau label kecil di frame | Mulai dari sumber resolusi lebih tinggi; potong lebih ketat agar label mengisi lebih banyak frame |
| Subjek bergeser dari posisi awalnya | Latar belakang terlalu mirip secara visual dengan produk | Foto ulang di latar belakang kontras lebih tinggi, atau deskripsikan warna latar belakang secara eksplisit di prompt |
| Gerakan kamera terlalu cepat | Tempo tidak ditentukan | Tambahkan deskriptor tempo eksplisit: "santai", "nuansa 0,3×", atau hitungan detik |
| Latar belakang menghasilkan gerakan yang tidak diinginkan | Deskripsi latar belakang dihilangkan | Tambahkan "latar belakang stasioner, tidak ada gerakan latar belakang" secara eksplisit |
| Warna berubah di tengah klip | Keseimbangan putih gambar sumber tidak konsisten | Koreksi keseimbangan putih gambar sumber sebelum diunggah |
| Audio native terdengar tidak cocok | Referensi nuansa terlalu samar | Tambahkan register lebih spesifik ("studio senyap", "nada ruangan minimal") jika tidak menginginkan soundscape yang dihasilkan |
Kapan memilih Grok Imagine 1.5 vs model lain
Grok Imagine 1.5 adalah alat yang tepat ketika Anda memiliki foto diam sumber yang bersih dan menginginkan penambatan subjek yang konsisten dengan tarif kredit yang efisien. Ini bukan alat yang tepat untuk setiap brief video.
| Kebutuhan | Pilihan lebih baik |
|---|---|
| Konsistensi karakter di seluruh adegan multi-pengambilan | Seedance 2.0 |
| Parametrisasi kamera tingkat frame | V6 |
| Output 4K siaran | Veo 3 |
| Energi gerakan tinggi, nuansa UGC lifestyle | Model PixVerse |
| Runtime klip terpanjang (hingga 60 detik) | Sora 2 |
Untuk kerangka pemilihan model umum di seluruh lanskap gambar ke video, panduan foto produk ke iklan video mencakup pilihan berdasarkan tujuan dan anggaran.
Memulai di OmniArt
Buka workspace video OmniArt, pilih Grok Imagine sebagai model, dan unggah foto produk yang melewati daftar periksa gambar sumber di atas. Tulis prompt lima bagian — aksi, pencahayaan, tempo, latar belakang, nuansa — dan hasilkan draf 5 detik di 480p. Jika gerakan dan penambatan subjek bertahan, beralih ke 720p untuk final.
Seluruh loop — draf, penyempurnaan, master — berjalan di dalam satu workspace dengan saldo kredit yang sama yang Anda gunakan di semua model OmniArt lainnya. Tidak ada akun xAI terpisah, tidak ada ekspor file ke alat lain, tidak perlu mulai ulang dari teks ketika Anda sudah memiliki foto produk yang Anda inginkan.
Siap membuat?
Mulai hasilkan konten menakjubkan dengan AI