guideTutorial dan panduan cara11 menit baca

8 prompt Grok Imagine yang benar-benar bekerja

Delapan prompt siap salin untuk Grok Imagine 1.5 mencakup gambar dan video, dibangun dengan gaya bahasa alami FLUX.1 menggunakan struktur Subjek + Aksi + Kamera + Gaya + Audio. Apa yang dihasilkan setiap prompt dan mengapa berhasil, langsung di dalam OmniArt.

Tim OmniArt9 Jun 2026

Grok Imagine 1.5 memperbarui basis gambar ke FLUX.1 dari Black Forest Labs, dan perubahan itu berdampak konkret pada cara Anda menulis prompt: model merespons deskripsi bahasa alami seperti fotografer membaca briefing, bukan seperti model lama yang mengurai daftar kata kunci. Delapan prompt di bawah ini siap disalin — tempelkan ke ruang kerja Grok Imagine OmniArt, sesuaikan detailnya, dan hasilkan. Setiap kartu menyertakan teks prompt yang tepat, apa yang dihasilkannya, dan satu catatan kerajinan tentang mengapa strukturnya berhasil.

Untuk teori prompt umum di semua model OmniArt, lihat cara menulis prompt yang lebih baik. Untuk pembahasan mendalam tentang enam mode generasi Grok Imagine dan matematika biaya, lihat panduan kreator Grok Imagine. Artikel ini khusus membahas Grok Imagine 1.5 — rilis FLUX.1 — dan teknik prompt yang dihargainya.

Apa yang Grok Imagine 1.5 ubah tentang penulisan prompt

Model dasar FLUX.1 dilatih secara berbeda dari arsitektur teks-ke-gambar sebelumnya. Model ini mengurai prosa yang terhubung dengan baik dan cenderung kurang merespons tumpukan kata kunci murni. Lima kebiasaan paling andal meningkatkan kualitas:

Bahasa alami daripada tumpukan kata kunci. Kalimat lengkap mengungguli kata sifat yang dipisahkan koma. "Sebuah jalan di jam biru, diterangi dengungan papan toko serba ada" mengalahkan "jalan, malam, neon, sinematik, 4K."
Referensi spesifik daripada kata sifat samar. "Diambil dengan Fujifilm XT4, 23mm f/2" menyampaikan lebih banyak kepada model daripada "foto berkualitas tinggi." Nama peralatan dan jenis film membawa bobot nyata di ruang laten.
Kata warna tepat daripada "berwarna-warni." "Biru elektrik dan merah muda panas" menghasilkan palet yang disengaja. "Berwarna-warni" menghasilkan kebisingan yang dirata-ratakan.
Waktu tepat daripada "jam emas." "Akhir Oktober, 17:45, matahari 6° di atas cakrawala" memberi tahu model sudut dan kehangatan cahaya yang tepat. "Jam emas" ambigu di berbagai musim dan lintang.
Struktur video: Subjek + Aksi + Kamera + Gaya + Audio. Letakkan subjek dan aksi utama dalam 20–30 kata pertama. Satu fokus gaya mengalahkan kombinasi. Lakukan iterasi secara bertahap — ubah satu variabel per generasi hingga hasilnya terkunci, lalu dorong lebih jauh.

Untuk pembahasan lengkap kosakata sinematik yang ditransfer ke video, panduan prompt video AI sinematik membahas pilihan lensa, gerakan kamera yang termotivasi, dan bahasa pencahayaan secara mendalam.

8 prompt

1. Foto produk sinematik (gambar)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Apa yang dihasilkan: foto diam yang bersih dan terarah secara artistik yang terbaca sebagai fotografi produk profesional, bukan output AI.

Mengapa berhasil: referensi Fujifilm XT4 mengaitkan ilmu warna dan rendering sensor pada tampilan dunia nyata yang spesifik. Sudut cahaya ditentukan secara numerik, yang mencegah model menggunakan pencahayaan difus overhead sebagai default. Membatasi palet menjadi dua warna — sorotan amber hangat, isian bayangan biru-abu-abu dingin — mencegah model menambahkan warna ketiga yang bersaing.

2. Close-up karakter dengan audio (video)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Apa yang dihasilkan: momen karakter dengan audio asli Grok Imagine 1.5 — model menghasilkan dialog, sinkronisasi bibir, dan suara ambient dalam satu putaran inferensi.

Mengapa berhasil: baris dialog cukup pendek untuk sinkronisasi bibir yang bersih dalam 8 detik. Dua sumber cahaya neon terpisah yang diberi nama (merah muda di atas, cyan dari kanan) memberi model peta cahaya yang jelas dan mencegah rata-rata generik "kota neon." "Bukan drama sinematik" adalah batasan negatif yang memandu suasana dengan lebih tepat daripada kata sifat positif.

Tips

Batasi dialog yang diucapkan menjadi satu atau dua kalimat pendek dalam klip di bawah 10 detik. Baris yang lebih panjang memenuhi durasi yang tersedia, dan model dapat mempercepat penyampaian atau memotong audio lebih awal.

3. Lingkungan atmosferik — klip ambience (video)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Apa yang dihasilkan: klip ambience pengatur suasana yang ideal sebagai footage latar, materi transisi, atau adegan pembuka.

Mengapa berhasil: "awal November, jam 7 pagi" lebih akurat dari "pagi berkabut." Push digambarkan sebagai "tidak terasa" dan "melayang di atas napas," yang mengomunikasikan kecepatan dengan lebih tepat daripada "push lambat ke depan." Meminta tidak ada musik mencegah audio menggunakan musik latar secara default — model menghasilkan ambience gaya rekaman lapangan yang nyata.

4. Video sosial vertikal cepat — peluncuran produk (video)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Apa yang dihasilkan: klip sosial 9:16 yang tajam untuk TikTok, Reels, atau Shorts — peluncuran produk potongan cepat dengan audio asli.

Mengapa berhasil: menentukan 9:16 di awal menetapkan rasio aspek sebelum hal lain dalam prompt. Timeline ditulis secara eksplisit ("0–2s / 2–8s"), yang membantu model menetapkan dua ketukan dengan benar alih-alih memadukan menjadi satu gerakan. Menyebutkan peristiwa audio tertentu (suara benturan, nada synthesizer) menghasilkan desain suara yang lebih disengaja daripada "tambahkan efek suara."

Peringatan

Klip Grok Imagine 1.5 dapat berdurasi hingga 15 detik. Untuk konten sosial, batasi klip maksimal 8–10 detik — gerakan model paling bersih dalam rentang tersebut, dan jendela perhatian platform sosial memang pendek. Pada 720p, klip 8 detik menghabiskan 120 kredit di OmniArt.

5. Ilustrasi bergaya (gambar)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Apa yang dihasilkan: ilustrasi grafis dengan warna terbatas yang terbaca sebagai proses cetak nyata, bukan seni digital generik.

Mengapa berhasil: menyebutkan teknik cetak (Risograph) dan batasannya yang spesifik (dua warna tinta, bentuk datar, tanpa gradien, misregistrasi tinta) memberi model briefing teknis yang lengkap. "Misregistrasi tinta" adalah jenis detail proses fisik yang mengaitkan output pada estetika dunia nyata — ini setara FLUX.1 dengan menyebutkan jenis film. Tanpa itu, model cenderung menambahkan gradien atau mencampurkan warna.

6. Gerakan kamera dinamis — pull-back drone (video)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Apa yang dihasilkan: shot pengungkapan 15 detik yang berkelanjutan — panjang klip maksimum model — dibangun di sekitar satu gerakan kamera yang termotivasi.

Mengapa berhasil: prompt ini menggunakan seluruh durasi 15 detik untuk satu gerakan kontinu, yang merupakan cara paling andal untuk mendapatkan hasil bersih pada durasi tersebut. Pull-back dibatasi pada ketinggian konstan (tanpa kemiringan), yang mencegah model mengimprovisasi sumbu kamera kedua dan menciptakan gerakan tersentak. "Warna gaya LOG, vignette lensa ringan" mengkode tampilan kamera nyata tanpa memerlukan nama peralatan spesifik.

7. Mode bergaya — potret film analog (gambar)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Apa yang dihasilkan: potret fotografi analog dengan rendering warna vintage yang akurat — butiran asli, halasi, dan pergeseran warna film kedaluwarsa.

Mengapa berhasil: "Kodak Portra 400 kedaluwarsa" adalah salah satu referensi gaya satu frasa terkuat di ruang laten gambar — membawa seperangkat ekspektasi tonal yang lengkap. Menentukan pergeseran warna ("hijau sedikit bergeser ke arah kuning-zaitun") mencegah butiran vintage generik dan memandu korupsi palet tepat yang terkait dengan film kedaluwarsa. Potongan ketat dan rasio aspek tertentu (4:5) menghasilkan potret yang terbaca sebagai cetakan foto nyata.

8. Lingkungan imersif — hujan (video)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Apa yang dihasilkan: klip lingkungan imersif dari sudut pandang tunggal — kuat sebagai shot pembuka atau sebagai karya suasana yang berdiri sendiri.

Mengapa berhasil: "akhir Juni, 22:00" menentukan musim tepat, rasa suhu (hujan musim panas yang lembap), dan tingkat kegelapan. Pengendara sepeda yang melintas ditempatkan sebagai peristiwa spesifik pada waktu tertentu ("sekitar 2 detik di tengah klip"), yang memberi model jangkar naratif tanpa meminta aksi karakter yang kompleks. Audio diberikan dalam tiga lapisan terpisah (hujan di kaca, bunyi ban mobil jauh, motor), yang cenderung menghasilkan desain suara yang lebih cermat daripada satu instruksi "hujan kota ambient."

Menjalankan ini di OmniArt

Semua delapan prompt berjalan di Grok Imagine 1.5 di dalam ruang kerja kreasi OmniArt — tidak perlu berlangganan xAI terpisah. Prompt gambar (1, 5, 7) masuk ke ruang kerja gambar; prompt video (2, 3, 4, 6, 8) masuk ke ruang kerja video di bawah Grok Imagine.

Beberapa catatan praktis untuk menjalankan di OmniArt:

Mulai dengan 480p untuk iterasi. Pada 480p, video menghabiskan 10 kredit per detik. Setelah strukturnya benar, naikkan ke 720p (15 kredit per detik) untuk take terakhir.
Gunakan Extend Mode untuk memperpanjang. Klip ambience (prompt 3) dan pull-back drone (prompt 6) dapat diperpanjang hingga 15 detik tambahan menggunakan Extend Mode Grok Imagine — model yang sama, hanya ditagih untuk bagian yang ditambahkan.
Gunakan Modify Mode untuk koreksi bertarget. Jika pencahayaan dalam hasil hampir benar tetapi satu elemen tidak pas, Modify Mode memungkinkan Anda mendeskripsikan perubahan dalam teks tanpa meregenerasi klip penuh. Simpan klip sumber di 480p sebelum meneruskan ke Modify — mode ini membatasi input di 854×480.
Konsistensi karakter lintas shot: jika Anda membuat beberapa shot karakter yang sama (gaya prompt 2), gunakan Reference Mode dengan headshot sebagai @Image1 dan nyatakan ulang deskripsi karakter di setiap prompt baru. Reference Mode Grok Imagine 1.5 adalah jalur paling langsung menuju konsistensi tanpa mengandalkan model yang di-fine-tune.

Untuk pembahasan lengkap semua enam mode generasi Grok Imagine, skenario biaya, dan kapan harus beralih ke model yang berbeda, lihat panduan lengkap Grok Imagine. Untuk kosakata sinematografi yang lebih luas yang dapat ditransfer ke prompt video apa pun, panduan prompt video AI sinematik layak di-bookmark bersamaan dengan yang satu ini.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis