guideModel dan insight9 menit baca

Audio natif dalam satu langkah: dialog, sinkronisasi bibir, dan suasana di Grok Imagine 1.5

Grok Imagine 1.5 menghasilkan token audio dan video dalam satu inferensi — dialog, sinkronisasi bibir, efek suara, dan musik latar sekaligus. Pelajari cara mengarahkan desain suara dalam prompt Anda, dengan tiga adegan praktis di OmniArt.

Tim OmniArt11 Jun 2026

Sebagian besar model video AI menghasilkan klip tanpa suara. Anda mengekspor video, mengimpornya ke DAW atau alat audio terpisah, mencari dialog, suasana, dan musik dari penyedia berbeda, menyelaraskan semuanya, lalu berharap sinkronisasinya tetap terjaga. Grok Imagine 1.5 menghilangkan alur kerja tersebut: audio — dialog, sinkronisasi bibir, efek suara, dan lapisan suasana — dihasilkan dalam satu langkah inferensi yang sama dengan frame video. Hasilnya adalah klip yang tiba sudah terdengar seperti dirinya sendiri. Panduan ini menjelaskan cara kerja mekanisme audio natif, di mana 1.5 lebih baik dari 1.0, dan cara menulis suara ke dalam prompt agar model benar-benar menggunakannya.

Cara kerja pembuatan audio natif

Model video AI konvensional memperlakukan suara sebagai langkah pasca-pemrosesan. Token video dihasilkan terlebih dahulu; model audio kemudian dijalankan pada hasilnya, mencoba mencocokkan apa yang sudah dirender. Karena dua langkah tersebut independen, ketidaksesuaian waktu sering terjadi — pintu yang membanting satu frame lebih awal, dialog yang mengambil napas di waktu yang salah, lapisan suasana yang tidak merespons perubahan adegan.

Grok Imagine 1.5 menghasilkan token video dan audio secara bersama dalam satu langkah inferensi. Model melihat konteks adegan lengkap — pembingkaian, gerakan karakter, suasana pencahayaan — saat memutuskan suara apa yang dibuat dan kapan. Gerakan bibir dibentuk bersamaan dengan bentuk gelombang audio, bukan dipaksakan setelahnya. Lapisan suasana merespons lingkungan visual yang sedang dibangun model, bukan frame yang sudah diekspor yang harus diinterpretasikannya secara retrospektif.

Catatan

Pembuatan satu langkah tidak berarti fidelitas audio tanpa batas — klip maksimal 720p, 24fps, dan 1–15 detik, sama seperti pembuatan Grok Imagine lainnya. Yang berubah adalah koherensi antara apa yang dilihat dan apa yang didengar.

Apa yang berubah dari 1.0 ke 1.5

Grok Imagine 1.0 juga memiliki audio natif, tetapi hasilnya memiliki dua masalah yang konsisten. Waktu dialog bersifat mekanis: karakter berbicara dengan kecepatan metronomis tanpa jeda alami, modulasi nada, atau intonasi tingkat kalimat. Lapisan suasana datar: adegan di jalan ramai mendapat suara kerumunan generik terlepas dari kepadatan visual, cuaca, atau waktu.

Grok Imagine 1.5 mengatasi keduanya. Penyampaian dialog kini menghormati ritme kalimat — pikiran singkat tersampaikan cepat, momen emosional sedikit melambat, pertanyaan memiliki kenaikan suara yang terdengar di akhir. Lapisan suasana menjadi responsif terhadap adegan: pasar malam yang basah hujan terdengar berbeda dari pasar siang yang kering karena model membaca petunjuk visual yang dibuatnya dan menyesuaikan campuran audio.

Kemampuan	Grok Imagine 1.0	Grok Imagine 1.5
Waktu dialog	Mekanis, kecepatan merata	Jeda alami, intonasi per kalimat
Sinkronisasi bibir	Dapat dikenali tapi kaku	Disinkronkan dengan bentuk gelombang audio yang dihasilkan
Lapisan suasana	Datar, tidak peka adegan	Responsif adegan, berlapis
Efek suara	Ada tapi kurang terdengar	Terintegrasi dengan peristiwa visual
Musik latar	Sesekali, generik	Penilaian otomatis berbasis suasana hati (opsional)

Peringkat Arena mencerminkan peningkatannya: Grok Imagine 1.5 mendapatkan +52 Elo di atas 1.0 untuk menduduki peringkat 1 di Image-to-Video Arena, unggul dari Seedance 2.0, HappyHorse 1.0, dan Google Veo dalam pengujian buta. Mesin Aurora memproses frame secara berurutan, yang membuat gerakan cukup koheren sehingga langkah audio menghasilkan sinkronisasi yang berguna.

Cara menulis suara ke dalam prompt

Pengarahan suara dalam prompt bahasa alami mengikuti beberapa pola yang konsisten. Model memperlakukan petunjuk audio sebagai bagian dari deskripsi adegan, bukan blok instruksi terpisah — jadi Anda menanamkan suara bersamaan dengan sinematografi, bukan setelahnya.

Tulis baris dialog dan cara penyampaiannya

Jangan asumsikan model akan menciptakan kata-kata yang tepat. Tuliskan barisnya secara eksplisit dan ikuti dengan catatan penyampaian.

Tanpa arahan audio	Dengan arahan audio
"Seorang barista berbicara dengan pelanggan"	"Seorang barista berkata 'Pesanan Anda akan siap sekitar lima menit lagi' dengan penyampaian hangat dan santai; suara kafe di latar belakang"

Catatan penyampaian yang bekerja dengan baik: hangat, mendesak, datar dan lelah, sedikit terengah-engah, pelan tapi tegas. Satu kata sifat biasanya cukup. Dua atau lebih mulai bertentangan.

Tentukan lapisan suasana secara eksplisit

Ketika Anda membiarkan suasana tidak ditentukan, model memilih sesuatu yang generik. Menamai lapisan — termasuk level relatif — memberinya target yang ingin dituju.

"Gambar dekat koki yang menata hidangan: desisan wajan di latar belakang, ventilasi dapur yang tenang, deringan sendok di porselen, tanpa musik."

Frasa tanpa musik berguna ketika Anda ingin adegan berjalan hanya dengan efek suara dan nada ruangan. Tanpanya, model mungkin menambahkan skor ringan.

Deskripsikan tempo dan jeda

Jeda adalah peristiwa audio. Jika karakter ragu sebelum menjawab, atau jika Anda membutuhkan dua ketukan keheningan sebelum efek suara masuk, katakan secara eksplisit.

"Dia melihat surat itu, dua detik keheningan, lalu menghembuskan napas kuat."

Putuskan antara penilaian otomatis atau pembatasan

Jika Anda tidak menyebutkan musik, Grok Imagine 1.5 mungkin menilai klip secara otomatis dengan isyarat yang cocok dengan suasana hati — string ringan untuk adegan emosional, ritme mendebarkan untuk aksi. Ini bekerja dengan baik untuk draf media sosial yang cepat. Untuk pekerjaan presisi — ketika Anda menginginkan keheningan, genre tertentu, atau beat yang jatuh pada suatu klip — batasi secara eksplisit: sebutkan genre, nuansa tempo, atau tulis tanpa musik latar untuk mematikannya.

Tips

Satu suasana sonik yang koheren per klip. Jangan minta "musik energik dan semangat tapi juga tenang dan kontemplatif". Model akan memilih satu dan itu bukan yang Anda bayangkan.

Tiga adegan praktis

Contoh-contoh ini menunjukkan pola prompt lengkap dalam praktik. Setiap contoh mencakup pengaturan visual, arahan audio, dan apa yang dihasilkan langkah audio natif.

Adegan 1: Gambar dekat dialog dengan sinkronisasi bibir

Tujuan: Karakter menyampaikan satu baris ke kamera. Pengambilan gambar memerlukan sinkronisasi bibir yang bersih dan penyampaian alami, bukan trek suara dari sumber terpisah.

Prompt:

"Gambar dekat medium seorang wanita berusia akhir 30-an di meja dapur, cahaya pagi dari jendela di sebelah kirinya. Dia menatap langsung ke kamera dan berkata 'Saya tidak mengira ini akan memakan waktu selama ini' dengan penyampaian lelah dan jujur — jeda singkat setelah 'mengira', suara turun di akhir. Latar belakang: dengungan lemari es yang rendah, tanpa musik."

Yang diharapkan: Model menghasilkan audio dialog dan gerakan mulut dalam langkah yang sama. Jeda di tengah kalimat membentuk bentuk gelombang audio dan gerakan bibir yang terlihat. Dengungan lemari es berada di bawah dialog pada level rendah tanpa bersaing dengannya.

Tuas penyesuaian: Jika penyampaian terlalu datar, tambahkan bobot emosional ke catatan penyampaian. Jika dengungan terlalu mencolok, tambahkan hampir tidak terdengar sebelumnya.

Adegan 2: Lingkungan suasana berlapis

Tujuan: Pasar malam yang basah hujan — tanpa dialog, murni suasana. Audio perlu terasa berlapis dan secara fisik hadir, bukan seperti satu file suara yang diulang.

Prompt:

"Dolly lambat melewati pasar malam yang sibuk dalam hujan deras. Tanda neon tercermin di genangan air, uap naik dari kios makanan. Lapisan audio: hujan deras di terpal kanvas (lapisan atas), desisan wok dari kios terdekat, kebisingan kerumunan yang teredam di kejauhan, tanpa musik. Cukup tenang untuk terasa intim, tidak berlebihan."

Yang diharapkan: Karena model membangun adegan visual — terpal, kios, kepadatan kerumunan — model dapat merespons elemen-elemen tersebut dalam langkah audio. Desisan dari kios yang terlihat dalam frame cenderung lebih keras dari suara kerumunan yang ditempatkan secara spasial lebih jauh.

Tuas penyesuaian: Tambahkan tetes hujan yang direkam dekat untuk lebih banyak tekstur. Tentukan pedagang jauh yang berteriak untuk memperkenalkan elemen audio naratif tanpa dialog formal.

Peringatan

Klip berjalan 1–15 detik. Adegan suasana dengan banyak lapisan bekerja paling baik pada 8–12 detik — durasi yang cukup agar model dapat membangun lapisan sebelum klip berakhir. Klip yang sangat pendek (2–4 detik) mungkin hanya merender lapisan dominan.

Adegan 3: Beat yang didorong musik

Tujuan: Gerakan penari perlu disinkronkan dengan nuansa ritmis tertentu — bukan secara kebetulan, tetapi sebagai desain sentral klip.

Prompt:

"Gerakan lambat gambar dekat kaki penari yang memukul lantai kayu di studio gelap, satu lampu sorot di atas. Setiap langkah kaki mendarat pada beat. Audio: techno minimal yang menggerakkan sekitar 120 BPM, dampak setiap langkah kaki dicampur ke dalam beat sehingga suara fisik dan musik terasa seperti peristiwa yang sama. Tanpa suara ruangan — akustik yang ketat dan kering."

Yang diharapkan: Model akan menghasilkan musik dan memperlakukan benturan kaki sebagai peristiwa audio ritmis di dalamnya. Karena gerakan dan audio dihasilkan bersama, waktu visual setiap benturan memiliki peluang lebih baik untuk selaras dengan beat dibanding alur kerja dua langkah.

Tuas penyesuaian: Tentukan genre berbeda — minimal house, perkusi orkestral, hip-hop pada 90 BPM — untuk mengubah nuansa. Tambahkan sedikit reverb ruangan jika akustik kering terasa terlalu steril.

Ringkasan praktik terbaik

Yang dilakukan	Mengapa penting
Tulis baris dialog kata demi kata	Model membutuhkan teks yang tepat untuk menghasilkan sinkronisasi bibir
Sebutkan lapisan suasana secara eksplisit	Deskripsi umum menghasilkan suara umum
Gunakan `tanpa musik` saat menginginkan keheningan atau hanya efek	Mencegah penilaian otomatis mengesampingkan niat Anda
Pertahankan satu suasana sonik yang koheren	Arahan audio yang bertentangan menghasilkan hasil rata-rata dan tidak fokus
Deskripsikan jeda sebagai peristiwa audio	Jeda membentuk bentuk gelombang dan gerakan bibir — keduanya adalah bagian dari sinkronisasi
Batasi musik dengan genre dan tempo	"Musik" tanpa arahan secara default menghasilkan sesuatu yang generik

Biaya kredit OmniArt

Audio natif sudah termasuk tanpa biaya tambahan per detik — tarif kredit sama dengan pembuatan Grok Imagine lainnya.

Resolusi	Kredit per detik
480p	10 kredit / detik
720p	15 kredit / detik

Adegan dialog 10 detik pada 720p menghabiskan 150 kredit. Adegan suasana 12 detik pada 480p menghabiskan 120 kredit. Jika Anda mengulang pada arahan audio secara khusus — menyesuaikan catatan penyampaian atau deskripsi lapisan suasana — mulailah dengan 480p, yang menghabiskan sepertiga lebih sedikit, dan tingkatkan skalanya hanya pada pengambilan yang ingin Anda pertahankan.

Memulai di OmniArt

Grok Imagine 1.5 tersedia di ruang kerja video OmniArt bersama setiap model lain dalam perpustakaan — saldo kredit yang sama, antarmuka prompt yang sama, tidak perlu berlangganan xAI terpisah. Cara tercepat untuk mempelajari apa yang dapat dilakukan audio natif adalah menulis satu baris dialog ke dalam prompt teks ke video dan melihat bagaimana model menanganinya, lalu berulang dari sana.

Untuk gambaran lengkap tentang mode pembuatan Grok Imagine, harga, dan kapan menggunakannya versus model lain, lihat panduan kreator Grok Imagine. Jika Anda mencari efek suara tambahan, suasana, atau musik di luar langkah pembuatan video, panduan generator efek suara AI mencakup model audio khusus OmniArt.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis