guideModel dan insight12 menit baca

Dari foto produk ke iklan bergerak: praktik terbaik Grok Imagine 1.5 untuk gambar ke video

Mode terkuat Grok Imagine 1.5 adalah mengubah foto produk bersih menjadi iklan bergerak. Aturan gambar sumber, formula prompt lima bagian, alur kerja 480p-720p, dan empat contoh lengkap di OmniArt.

Tim OmniArt10 Jun 2026

Mode gambar ke video Grok Imagine 1.5 memiliki satu tugas yang dilakukannya dengan sangat baik: mengambil foto produk yang bersih dan mengubahnya menjadi klip iklan bergerak tanpa perlu membangun ulang produk dari deskripsi teks. Mesin Aurora menambatkan posisi subjek, pencahayaan, dan lintasan kamera dari gambar sumber Anda, sehingga sneaker tetap berwarna putih yang tepat dan angka pada dial jam tangan tetap terbaca — sesuatu yang tidak bisa dijamin oleh pembuatan video dari teks untuk produk yang benar-benar Anda jual.

Panduan ini membahas tiga pilar inti yang menentukan apakah klip Grok Imagine 1.5 mode gambar ke video dapat digunakan pada percobaan pertama: kualitas gambar sumber, konstruksi prompt, dan alur kerja resolusi 480p ke 720p. Empat contoh lengkap — sneaker, jam tangan, tas tangan, dan produk kecantikan — menunjukkan setiap pilar dari awal hingga akhir.

Untuk alur kerja iklan e-commerce yang lebih luas yang mencakup pemilihan model, format platform, dan audio, lihat Ubah foto produk menjadi iklan video dengan OmniArt. Artikel ini fokus secara khusus pada mendapatkan hasil terbaik dari Grok Imagine 1.5.

Apa yang Grok Imagine 1.5 bawa ke gambar ke video

Spesifikasi	Nilai
Resolusi	Hingga 720p
Frame rate	24 fps
Durasi	1–15 detik
Audio native	Ya — dihasilkan dalam inferensi yang sama
Basis gambar	FLUX.1 (Black Forest Labs)
Peringkat arena	Peringkat 1 di Image-to-Video Arena (+52 Elo di atas versi 1.0)

Basis FLUX.1 adalah alasan mengapa prompting bahasa alami bekerja di sini. Anda mendeskripsikan pengambilan gambar seperti yang akan Anda briefkan kepada operator kamera, bukan menumpuk kata kunci dalam kosakata OpenCLIP. Mesin Aurora kemudian menggunakan gambar sumber sebagai referensi spasial dominan — menjaga siluet, warna, dan posisi relatif subjek tetap stabil sementara kamera dan cahaya bergerak di sekitarnya.

OmniArt menghadirkan Grok Imagine di workspace video berdampingan dengan semua model lain, sehingga tidak diperlukan langganan xAI terpisah. Tarif kredit adalah 10 kredit per detik di 480p dan 15 kredit per detik di 720p — artinya draf 5 detik di 480p menghabiskan 50 kredit dan yang sama di 720p menghabiskan 75.

Pilar 1: Kualitas gambar sumber

Mesin Aurora menambatkan komposisi dari frame sumber. Input yang kuat menghasilkan gerakan yang tertambat; input yang lemah memperkenalkan drift — model menginterpolasi ulang apa yang tidak bisa dibacanya dengan jelas, dan akurasi pun menurun.

Daftar periksa gambar sumber

Lakukan	Jangan
Gunakan latar belakang yang bersih dan tidak berantakan (putih, abu-abu terang, atau konteks lifestyle dengan ruang bernapas)	Gunakan latar belakang yang terlalu sibuk sehingga produk menghilang di dalamnya
Foto atau potong agar produk mengisi 50–70% frame	Gunakan foto produk yang terpotong berlebihan atau tepi yang terpangkas
Pertahankan kontras tinggi antara subjek dan latar belakang	Gunakan foto produk yang warnanya mirip dengan latar belakang
Jaga teks, logo, dan label tetap fokus dan terbaca	Gunakan gambar dengan artefak kompresi JPEG yang parah
Bekerja dari sumber resolusi tertinggi yang Anda miliki (minimal 1024 × 1024)	Gunakan gambar resolusi thumbnail atau gambar web yang diperkecil
Gunakan satu subjek utama per frame	Gunakan flat lay berkelompok dengan lima produk
Pastikan detail yang mendefinisikan produk (sol, dial, gesper, tutup) terlihat jelas	Gunakan sudut yang menyembunyikan fitur utama produk

Peringatan

Artefak kompresi dan ambiguitas visual dalam sumber terbawa ke dalam gerakan. Model tidak bisa memulihkan ketajaman yang tidak ada — ia akan menginterpolasi dan menciptakan, yang menghasilkan blur pada label dan pergeseran bentuk. Selalu mulai dari file terbersih yang Anda miliki.

Mengapa ini lebih penting untuk Grok daripada teks ke video

Dengan teks ke video Anda mendeskripsikan produk dan model menciptakan yang sesuai dengan kata-kata Anda. Dengan gambar ke video model berkomitmen untuk menghormati produk nyata Anda — tetapi hanya sejauh ia bisa membacanya dari frame sumber. Foto resolusi rendah atau ambigu secara visual adalah alasan paling umum mengapa hasil Grok Imagine 1.5 mode gambar ke video mengecewakan.

Pilar 2: Formula prompt lima bagian

Grok Imagine 1.5 menggunakan FLUX.1 sebagai fondasi gambar, yang memberikan penghargaan pada deskripsi bahasa alami daripada rangkaian kata kunci. Lima bagian di bawah ini memetakan ke apa yang bisa langsung ditindaklanjuti oleh mesin gerakan Aurora.

Formula

[Aksi] — [Pencahayaan] — [Tempo] — [Latar belakang] — [Nuansa/referensi]

Setiap bagian secara detail:

Aksi — gerakan kamera atau subjek. Jadilah spesifik: "dolly masuk lambat dari ketinggian pinggang", "pan orbital mengelilingi sisi kiri", "mengambang vertikal lembut, 3 cm ke atas dan kembali". Istilah samar seperti "dinamis" memberi model terlalu banyak kebebasan dan menghasilkan hasil yang tidak konsisten.
Pencahayaan — deskripsikan arah cahaya, kualitas, dan sumbernya. "Rim light dari belakang dengan key light tungsten hangat di kiri kamera" mengalahkan "pencahayaan dramatis". Suhu warna spesifik ("3200K", "5600K daylight") atau kualitas cahaya yang disebutkan ("fill softbox", "bayangan keras 45 derajat") menambatkan tampilan.
Tempo — kecepatan dan ritme gerakan. "Push lambat 2 detik, tidak ada akselerasi", "nuansa pemutaran 0,5×", "tidak terburu-buru, editorial". Tanpa tempo yang eksplisit, model menggunakan gerakan sedang sebagai default, yang terlalu cepat untuk pekerjaan produk hero.
Latar belakang — apakah harus tetap diam, bergeser sedikit, atau berkontribusi pada adegan. "Cyclorama putih, tidak ada gerakan latar belakang", "permukaan marmer bokeh yang diburamkan, pergeseran cahaya halus", "kekosongan studio, tidak ada detail lingkungan". Mengabaikan ini sering menghasilkan drift latar belakang yang tidak diinginkan.
Nuansa dan referensi kamera — satu frasa yang mengkalibrasi register keseluruhan. Referensi peralatan lebih dapat diandalkan daripada kata sifat: "diambil di Fujifilm XT4" mengalahkan "sinematik"; "nuansa iklan cetak mewah" mengalahkan "kelas atas"; bulan + waktu tertentu ("pagi Januari, 9 pagi studio") mengalahkan "golden hour".

Tips

Kata warna spesifik mengalahkan yang samar. "Putih gading" mengalahkan "terang", "indigo dalam" mengalahkan "biru tua", "emas champagne" mengalahkan "keemasan". Basis FLUX.1 dilatih pada deskripsi gambar yang menggunakan nama warna tepat, dan gerakan mempertahankan pembacaan warna apa pun yang dibuat dari frame pertama.

Yang harus dihilangkan

Jangan sertakan nama merek, wajah orang, atau referensi ke tempat nyata. Jangan menumpuk sinonim ("mewah premium kelas tinggi") — prompting bahasa alami FLUX.1 tidak mendapatkan apa-apa darinya dan menambah kebisingan. Satu kalimat jelas per bagian lebih baik daripada tiga kata sifat yang terfragmentasi.

Pilar 3: Alur kerja resolusi 480p ke 720p

Perbedaan biaya kredit antara 480p dan 720p adalah 5 kredit per detik — tidak signifikan untuk satu klip, tetapi bermakna ketika Anda mengiterasi prompt dan gerakan sebelum berkomitmen.

Alur kerja yang disarankan

Langkah	Resolusi	Tujuan	Biaya (klip 5 detik)
1. Ideasi prompt	480p	Uji gerakan kamera dan stabilitas subjek	50 kredit
2. Penyempurnaan gerakan	480p	Sesuaikan tempo, latar belakang, dan prompt pencahayaan	50 kredit per iterasi
3. Output final	720p	Master bersih untuk media sosial atau pitch deck	75 kredit

Tiga iterasi 480p ditambah satu final 720p berjumlah 225 kredit — sama dengan tiga render 720p. Disiplin kuncinya adalah tidak beralih ke 720p sampai draf 480p memiliki gerakan dan komposisi yang Anda inginkan. Mesin Aurora menskalakan klip yang sama, sehingga hasil yang lulus di 480p akan menjadi output 720p yang lulus secara konsisten.

Catatan

Audio native dihasilkan dalam inferensi yang sama terlepas dari resolusi. Suara ambient dan audio mekanis apa pun yang dihasilkan Grok Imagine 1.5 di 480p akan identik karakternya dengan yang dihasilkan final 720p — jadi Anda bisa mengevaluasi audio selama tahap iterasi 480p juga.

Empat contoh lengkap

Contoh 1: Hero push sneaker

Produk: Sneaker low-top putih, foto tiga perempat di atas meja putih, dengan refleksi bersih.

Pengaturan gambar sumber: Difoto dari sedikit di atas pada sudut 45 derajat, sol terlihat, simpul tali sepatu tajam, label lidah terbaca. Diekspor pada 2048 × 2048, tanpa kompresi.

Prompt:

"Dolly lambat masuk dari jarak menengah ke close-up pada kotak jari kaki, berhenti ketika sol mengisi sepertiga frame. Bayangan keras dari cahaya alami overhead yang menyapu dari kiri ke kanan. Tempo santai, nuansa 0,3×. Latar belakang infinity putih, tidak ada gerakan. Diambil di Leica SL2, register editorial alas kaki mewah."

Yang ditambahkan gerakan: Push bertahap mengungkap tekstur material kotak jari kaki dan tepi sol secara berurutan — informasi yang tidak bisa dikomunikasikan foto datar. Bayangan cahaya alami yang menyapu panel samping menunjukkan kualitas permukaan tanpa voiceover.

Audio: Grok menghasilkan nada ruangan ambient yang samar dan suara material halus saat sol masuk ke frame — hapus atau lapisi di bawah musik sesuai kebutuhan.

Contoh 2: Orbit reveal jam tangan

Produk: Jam tangan dress dari baja tahan karat, flat lay di atas kertas abu-abu bertekstur, menghadap ke atas dengan strap dilepas.

Pengaturan gambar sumber: Dial mengisi 60% frame, indeks terbaca, detail mahkota terlihat di kanan. Difoto pada 2000 × 2000, cahaya difus merata.

Prompt:

"Pan orbital lambat dimulai dari posisi jam 9, berjalan searah jarum jam di sekitar dial jam tangan, menyelesaikan 180 derajat selama 8 detik. Fill softbox dari atas, rim specular keras dari kanan kamera pada 4500K. Tidak ada akselerasi tempo. Permukaan linen abu-abu pucat, latar belakang stasioner. Gaya editorial pembuat jam studio."

Yang ditambahkan gerakan: Orbit menangkap kilau metalik tepi casing dan jarum dari beberapa sudut dalam satu lintasan — detail produk yang biasanya memerlukan empat foto terpisah untuk dikomunikasikan. Busur 180 derajat menjaga dial tetap terbaca sepanjang waktu.

Audio: Mesin Aurora menghasilkan ambiens mekanis yang samar — tipis, tepat, sesuai untuk konteks pembuatan jam. Berguna sebagai dasar di bawah voiceover.

Contoh 3: Float dan pendaratan tas tangan

Produk: Tas tangan kulit berstruktur warna tan, berdiri tegak di depan latar belakang krem hangat, hardware terlihat.

Pengaturan gambar sumber: Wajah depan di tengah frame, simpul pegangan atas terlihat, kepala ritsleting tajam. Difoto pada 1800 × 1800.

Prompt:

"Tas mengambang 6 cm di atas permukaan, bertahan 2 detik di puncak, kemudian mendarat lembut kembali ke bawah. Cahaya hampir tidak bergerak. Fill ambient hangat 3200K dari atas kiri, sorotan kulit halus dari bawah kanan. Tempo yang disengaja dan terkendali. Latar belakang infinity krem, tidak ada gerakan lingkungan. Register katalog mode mewah, diambil di Hasselblad medium format."

Yang ditambahkan gerakan: Float-and-settle menciptakan rasa berat dan substansi material — tas berperilaku seperti objek fisik daripada potongan gambar. Jeda di puncak memberi waktu penonton untuk membaca hardware dan detail jahitan.

Audio: Nada ruangan minimal; pendaratan kembali menghasilkan suara kontak permukaan yang samar yang memperkuat fisikalitas.

Contoh 4: Rotasi produk kecantikan dengan kondensasi

Produk: Botol serum bermatte finish, tegak, tutup dropper perak, label putih.

Pengaturan gambar sumber: Botol mengisi 55% frame, teks label tajam, detail tutup terlihat, latar belakang putih bersih. Difoto pada 1920 × 1920.

Prompt:

"Rotasi berlawanan arah jarum jam yang lambat, 360 derajat penuh selama 10 detik. Kondensasi kelembaban halus terbentuk di permukaan kaca saat rotasi dimulai dan tersebar pada titik setengah jalan. Cahaya siang lembut dan dingin dari atas pada 6000K, rim light dari belakang. Tempo stabil dan santai. Latar belakang studio putih, tidak ada drift. Estetika kampanye skincare, diambil di Phase One IQ4."

Yang ditambahkan gerakan: Efek kondensasi mengomunikasikan kemanjuran dan kesegaran — dua ide yang konseptual mahal untuk disampaikan dalam foto diam. Rotasi penuh menampilkan teks label belakang dan mekanisme dropper dari setiap sudut.

Peringatan

Efek kondensasi dan partikel bersifat emergent di Grok Imagine 1.5 — model menginterpretasikan instruksi alih-alih merendernya secara prosedural. Pada beberapa generasi efeknya padat; pada yang lain halus. Hasilkan dua hingga tiga draf 480p dan pertahankan hasil di mana efeknya terbaca tanpa mengaburkan label.

Mode kegagalan umum dan perbaikan

Masalah	Kemungkinan penyebab	Perbaikan
Teks label kabur atau terdistorsi selama gerakan	Gambar sumber terkompresi atau label kecil di frame	Mulai dari sumber resolusi lebih tinggi; potong lebih ketat agar label mengisi lebih banyak frame
Subjek bergeser dari posisi awalnya	Latar belakang terlalu mirip secara visual dengan produk	Foto ulang di latar belakang kontras lebih tinggi, atau deskripsikan warna latar belakang secara eksplisit di prompt
Gerakan kamera terlalu cepat	Tempo tidak ditentukan	Tambahkan deskriptor tempo eksplisit: "santai", "nuansa 0,3×", atau hitungan detik
Latar belakang menghasilkan gerakan yang tidak diinginkan	Deskripsi latar belakang dihilangkan	Tambahkan "latar belakang stasioner, tidak ada gerakan latar belakang" secara eksplisit
Warna berubah di tengah klip	Keseimbangan putih gambar sumber tidak konsisten	Koreksi keseimbangan putih gambar sumber sebelum diunggah
Audio native terdengar tidak cocok	Referensi nuansa terlalu samar	Tambahkan register lebih spesifik ("studio senyap", "nada ruangan minimal") jika tidak menginginkan soundscape yang dihasilkan

Kapan memilih Grok Imagine 1.5 vs model lain

Grok Imagine 1.5 adalah alat yang tepat ketika Anda memiliki foto diam sumber yang bersih dan menginginkan penambatan subjek yang konsisten dengan tarif kredit yang efisien. Ini bukan alat yang tepat untuk setiap brief video.

Kebutuhan	Pilihan lebih baik
Konsistensi karakter di seluruh adegan multi-pengambilan	Seedance 2.0
Parametrisasi kamera tingkat frame	V6
Output 4K siaran	Veo 3
Energi gerakan tinggi, nuansa UGC lifestyle	Model PixVerse
Runtime klip terpanjang (hingga 60 detik)	Sora 2

Untuk kerangka pemilihan model umum di seluruh lanskap gambar ke video, panduan foto produk ke iklan video mencakup pilihan berdasarkan tujuan dan anggaran.

Memulai di OmniArt

Buka workspace video OmniArt, pilih Grok Imagine sebagai model, dan unggah foto produk yang melewati daftar periksa gambar sumber di atas. Tulis prompt lima bagian — aksi, pencahayaan, tempo, latar belakang, nuansa — dan hasilkan draf 5 detik di 480p. Jika gerakan dan penambatan subjek bertahan, beralih ke 720p untuk final.

Seluruh loop — draf, penyempurnaan, master — berjalan di dalam satu workspace dengan saldo kredit yang sama yang Anda gunakan di semua model OmniArt lainnya. Tidak ada akun xAI terpisah, tidak ada ekspor file ke alat lain, tidak perlu mulai ulang dari teks ketika Anda sudah memiliki foto produk yang Anda inginkan.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis