guideTutorial dan panduan cara8 menit baca

Panduan lengkap prompt dan sinematografi dengan Veo 3.1

Cara membuat prompt untuk Veo 3.1 demi hasil berkualitas broadcast: 4K native, audio spasial, dan kepatuhan kuat terhadap frame awal — dengan formula lima bagian yang dapat digunakan ulang dan perbandingan sebelum/sesudah di OmniArt.

Tim OmniArt12 Jun 2026

Veo 3.1 adalah model video tingkat broadcast OmniArt — model yang Anda pilih saat output harus tampil prima di layar besar. Model ini hadir dengan 4K native, audio spasial yang dihasilkan bersamaan dengan frame video, serta kepatuhan terhadap frame awal yang luar biasa kuat ketika Anda menyediakan gambar referensi. Namun semua itu tidak ada artinya jika prompt Anda tidak jelas. Panduan ini menyediakan formula lima bagian yang dapat digunakan ulang untuk mengarahkan Veo 3.1 sesuai cara kerjanya, dilengkapi dengan perbandingan sebelum/sesudah, tabel kosakata sinematik, dan panduan memilih tier yang tepat (standard, fast, atau lite) untuk setiap pekerjaan.

Formula prompt lima bagian untuk Veo 3.1

Veo 3.1 merespons dengan baik prompt terstruktur yang menjawab lima pertanyaan secara berurutan. Lewatkan satu pun, dan model akan mengisi celah itu — biasanya dengan cara yang paling generik.

Subjek dan aksi — siapa atau apa, melakukan apa, di mana. "Seorang sineas memeriksa rekaman sendirian di ruang edit yang gelap."
Kamera (gerakan, lensa, pembingkaian) — ukuran shot, panjang fokus, gerakan dan kecepatannya. "Push-in lambat, 50mm, medium close-up, kamera terkunci lalu perlahan bergerak ke depan."
Pencahayaan dan suasana — sumber, arah, kualitas, palet. "Cahaya monitor tunggal sebagai key light, bayangan dalam, biru dingin, kontras tinggi."
Audio dan ambiens — bunyi ruangan, suara spesifik, arah musik atau no music. "Dengung listrik pelan, sesekali klik keyboard, no music."
Output teknis — resolusi (4K atau tidak), durasi yang diinginkan, referensi gaya. "4K, 8 detik, fotorealistis."

Contoh yang dikerjakan sepenuhnya

Prompt:

"Seorang sineas memeriksa rekaman sendirian di ruang edit yang gelap. Push-in lambat, 50mm, medium close-up, kamera terkunci lalu perlahan bergerak ke depan. Cahaya monitor tunggal sebagai key light, bayangan dalam, biru dingin, kontras tinggi. Dengung listrik pelan, sesekali klik keyboard, no music. 4K, 8 detik, fotorealistis."

Prompt ini butuh kurang dari tiga puluh detik untuk ditulis. Ia menentukan shot seperti cara seorang director of photography menjelaskan kepada gaffer, dan Veo 3.1 punya sedikit ruang untuk menebak dengan keliru.

Tips

Masukkan arahan audio di setiap prompt, bukan hanya yang mengutamakan suara. Veo 3.1 menghasilkan audio spasial bersamaan dengan frame video — tidak menentukan audio tidak membuat output menjadi hening, tapi menyerahkan kontrol kepada model. Tulis no music jika Anda menginginkan room tone yang bersih untuk di-mix secara terpisah.

Tabel kosakata sinematik

Istilah-istilah ini langsung diterjemahkan ke dalam generasi Veo 3.1. Salin frasa yang Anda butuhkan ke dalam prompt.

Gerakan kamera

Gerakan	Frasa prompt
Pendekatan lambat	"slow dolly-in", "gentle push-in"
Mundur	"slow pull-back", "dolly-out to reveal"
Mengikuti secara lateral	"smooth tracking shot from the left", "lateral dolly"
Naik dan mengungkap	"slow crane up to reveal the skyline"
Ketegangan handheld	"subtle handheld shake, reactive framing"
Terkunci, stabil	"tripod-locked", "static wide"
Busur mengelilingi subjek	"slow arc around the subject"

Ukuran shot dan sudut

Niat	Frasa prompt
Skala dan konteks	"wide 18mm, deep focus, full environment"
Subjek dalam ruang	"medium shot, eye level"
Keintiman	"medium close-up, 50mm"
Intensitas	"tight close-up, 85mm, shallow focus"
Kekuatan dan ancaman	"low angle looking up"
Kerentanan	"high angle looking down"

Pencahayaan

Tampilan	Frasa prompt
Kehangatan alami	"golden-hour side light, warm highlights, cool shadows"
Kontras dramatis	"chiaroscuro, single hard source from camera right"
Atmosfer urban	"neon spill, magenta and cyan, reflections in wet pavement"
Wawancara bersih	"soft diffused key, slightly warm, low contrast"
Kehadiran malam	"practical light only — a single lamp, deep background falloff"

Perbandingan sebelum dan sesudah

A: arahan kamera — tuas tunggal paling berpengaruh

Perubahan paling berdampak yang dapat Anda buat pada prompt Veo 3.1 adalah menambahkan gerakan kamera dan panjang fokus. Bandingkan:

Tanpa: "A street musician playing violin in the rain."

Dengan: "Medium close-up of a street musician playing violin in the rain. Slow dolly-in, 85mm, shallow depth of field — background traffic dissolving into blur. Practical street-lamp from above, rim-lighting the bow. Light rain sound, distant traffic, no music."

Versi kedua tidak menggunakan kata "cinematic" sama sekali. Ia menentukan apa yang membuat shot itu sinematik — dan model merender niat tersebut daripada memilih salah satu dari sepuluh interpretasi generik.

B: kepatuhan terhadap frame awal dalam alur kerja gambar ke video

Veo 3.1 memiliki kepatuhan gambar yang sangat kuat ketika Anda menyediakan gambar referensi sebagai frame awal. Model mempertahankan komposisi, grade warna, dan detail karakter kunci dari frame pertama, dan menggunakannya sebagai batasan di seluruh proses generasi.

Penggunaan praktis: ambil still dari sesi pemotretan komersial, render produk, atau konsep karakter, sediakan sebagai frame awal dalam alur kerja gambar ke video OmniArt, lalu tulis prompt yang menggambarkan gerakan dari titik awal tersebut.

Prompt setelah menyediakan frame awal foto produk:

"Botol parfum berada di permukaan marmer putih. Busur lambat dari kiri ke kanan, botol tetap berada di tengah. Cahaya sore dari jendela tinggi menyapu kaca, menangkap facet-facetnya. 4K, 6 detik, no music."

Model mewarisi pencahayaan yang tepat, posisi produk, dan tekstur permukaan dari referensi Anda, lalu menerapkan gerakan yang dijelaskan — bukan meregenerasi adegan dari awal.

Catatan

Kepatuhan gambar paling kuat ketika gambar frame awal Anda mendekati rasio aspek dan resolusi yang Anda hasilkan. Gambar persegi yang disediakan untuk generasi 16:9 akan dipotong atau mendapatkan pillar-box, yang dapat menggeser komposisi yang diwarisi model.

C: audio spasial dari satu baris prompt

Audio spasial Veo 3.1 tidak memerlukan proses terpisah — satu baris audio deskriptif dalam prompt sudah cukup untuk menghasilkan soundscape berlapis dengan kesadaran posisi.

Fragmen prompt:

"...Audio: hujan yang direkam dekat di atap seng bergelombang di atas, keramaian pasar di kejauhan, sesekali sepeda motor melintas dari kanan ke kiri, no music."

Yang dihasilkan model: hujan hadir dan terarah — Anda dapat mendengarnya secara spasial di atas adegan. Keramaian pasar menempati jarak menengah. Sepeda motor melintas melalui bidang stereo sesuai deskripsi. Directionalitas berasal dari arsitektur audio native Veo 3.1, bukan pemrosesan pasca-produksi. Memberi nama lapisan dan hubungan spasialnya — close, distant, passing left to right — memberi model yang dibutuhkan untuk merender dengan posisi.

Memilih antara standard, fast, dan lite

Veo 3.1 hadir dalam tiga tier di OmniArt. Pilihan yang tepat bergantung pada pekerjaan, bukan kebiasaan default.

Tier	Kapan digunakan	Biaya kredit
`veo-3.1-standard`	Output final, pengiriman broadcast, ulasan klien, semua kasus penggunaan 4K	Tertinggi per detik
`veo-3.1-fast`	Iterasi dan penyempurnaan prompt dengan kualitas yang wajar	Menengah
`veo-3.1-lite`	Tes konsep cepat, pemeriksaan thumbnail, motion pass untuk storyboard	Terendah per detik

Kapan 4K layak mendapat kredit tambahan: kiriman untuk layar besar, foto hero produk, apa pun yang akan diekspor dalam resolusi penuh, atau pekerjaan di mana detail rendering model pada latar belakang dan tekstur penting untuk brief. 4K hanya tersedia di veo-3.1-standard.

Kapan 4K adalah pemborosan: crop media sosial di 1080p atau lebih kecil, draf gerakan yang akan Anda regenerasi bagaimanapun juga, apa pun yang sedang Anda jelajahi daripada dikirimkan. Gunakan veo-3.1-lite untuk pekerjaan itu — iterasi dengan murah, lalu beralih ke standard untuk pass final.

Peringatan

Menjalankan 4K pada prompt eksploratif yang akan Anda regenerasi beberapa kali akan melipatgandakan pengeluaran kredit dengan cepat. Selesaikan prompt terlebih dahulu di fast atau lite, lalu commit versi final ke standard dengan 4K.

Kesalahan prompt yang umum

Terlalu banyak detail di baris subjek. "Seorang perempuan paruh baya berambut merah keriting mengenakan mantel vintage berdiri di tepi kanal di Amsterdam memegang buket tulip dengan ekspresi sendu" memasukkan terlalu banyak detail sehingga model harus memilih mana yang benar-benar dirender. Pertahankan hanya yang esensial untuk shot ini dan biarkan sisanya.

Arahan kamera yang bertentangan. "Slow push-in with a wide pull-back" secara fisik tidak mungkin — model akan memilih satu dan mengabaikan yang lain. Tulis satu gerakan yang termotivasi per prompt. Jika Anda membutuhkan shot yang dimulai lebar lalu mendekat, itu adalah push-in, titik.

Melupakan audio sepenuhnya. Veo 3.1 akan menghasilkan audio dengan atau tanpa arahan Anda. Generasi audio tanpa arahan bukan keheningan — itu adalah tebakan terbaik model, yang mungkin tidak sesuai niat Anda. Selalu akhiri prompt dengan satu baris audio, bahkan jika hanya no music, ambient room tone only.

Menulis "cinematic" sebagai kata gaya. Kata "cinematic" meminta model membuat keputusan yang seharusnya Anda buat. Ganti dengan properti visual spesifik yang benar-benar Anda inginkan: lensa, cahaya, gerakan, palet.

Memulai di OmniArt

Veo 3.1 — standard, fast, dan lite — tersedia di ruang kerja video OmniArt bersama semua model lain di perpustakaan. Cara tercepat untuk membangun kemahiran adalah mengambil satu ide yang sudah ada, menulis menggunakan formula lima bagian di atas, dan menghasilkan di veo-3.1-fast terlebih dahulu untuk menyempurnakan prompt sebelum beralih ke standard.

Untuk kosakata sinematik yang lebih luas dan bagaimana pola prompt yang sama berlaku di seluruh lineup model video OmniArt, lihat panduan prompt video AI sinematik. Saat Anda siap mendalami generasi audio Veo 3.1 secara khusus, panduan praktik terbaik audio spasial Veo 3.1 mencakup soundscape berlapis, isyarat audio posisional, dan arahan musik secara detail. Untuk perbandingan langsung Veo 3.1 versus model tingkat atas lainnya, lihat Veo 3.1 vs Sora 2.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis