Input any-to-any Gemini Omni Flash: apa yang sebenarnya dilakukannya
Omni-modal adalah pitch andalan Gemini Omni Flash, tetapi API yang dirilis lebih sempit dari materi pemasarannya. Berikut apa yang sebenarnya diubah input any-to-any pada sebuah brief.

Kata yang menanggung beban paling berat dalam peluncuran Gemini Omni Flash adalah "Omni" — janji sebuah model tunggal yang bisa Anda beri teks, gambar, audio, dan video sekaligus, dalam satu prompt. Itu benar-benar pitch yang berbeda dari model video input tunggal sebelumnya, dan itulah alasan model ini pantas menyandang namanya. Tetapi versi yang dirilis di API developer lebih sempit dari framing keynote-nya, dan selisih itu penting jika Anda merencanakan pekerjaan nyata di sekitarnya.
Tulisan ini memisahkan apa yang sebenarnya diberikan any-to-any hari ini dari apa yang masih menjadi aspirasi — lalu masuk ke poin yang lebih berguna, yaitu bagaimana input multimodal mengubah cara Anda menulis sebuah brief sama sekali.
Apa arti "any-to-any" sebenarnya
Kebanyakan model video menerima satu jenis pengarahan. Anda menulis teks, atau Anda menyuplai satu gambar referensi, dan model bekerja dari itu. Input any-to-any berarti satu tata bahasa prompt menerima beberapa modalitas secara bersamaan dan mengembalikan hasil yang koheren yang menghormati semuanya: sebuah frame referensi untuk tampilan, klip pendek untuk gerak, dan arahan tertulis untuk segala hal lainnya — digabungkan, bukan dipilih salah satu.
Pergeserannya adalah dari mendeskripsikan sebuah shot dalam kata-kata menjadi menyusunnya dari aset. Itulah kemampuan yang sesungguhnya, dan itulah mengapa "omni-modal" bukan sekadar pemasaran. Pertanyaannya adalah seberapa banyak dari itu yang sudah aktif.
Pitch versus API yang dirilis
Berikut matriks yang jujur untuk pratinjau saat ini, langsung dari dokumentasi API-nya sendiri:
| Input | Status | Catatan |
|---|---|---|
| Prompt teks | Didukung | Tulang punggung setiap generasi |
| Referensi gambar | Didukung | Teks ke video, gambar ke video, dan referensi subjek |
| Referensi video | Didukung, dengan catatan | Referensi di atas 3 detik tidak diproses sepenuhnya |
| Referensi audio | Tidak didukung | Anda tidak bisa mengunggah suara atau vokal untuk dicocokkan model |
| Beberapa referensi video | Tidak didukung | Satu klip referensi per generasi |
| Prompt non-Inggris | Belum diuji | Bahasa Inggris adalah satu-satunya bahasa yang didukung penuh |
Peringatan
Celah audio adalah yang paling mungkin menggagalkan sebuah rencana. Omni Flash menghasilkan trek audio secara default, tetapi "any-to-any" tidak mencakup menyerahkan sebuah bed musik, sulih suara, atau rekaman ambien untuk disinkronkan. Audio adalah keluaran yang Anda arahkan dengan kata-kata, bukan input yang Anda suplai.
Jadi bacaan yang akurat: any-to-any hari ini adalah teks + gambar + video masuk, video (dengan audio hasil generasi) keluar. Separuh janji omni-modal berupa audio-masuk sengaja ditahan — sejalan dengan fitur pengeditan ucapan dalam video dan avatar yang ditahan Google saat peluncuran demi alasan keamanan. Ini perubahan kemampuan nyata dibanding model input tunggal; hanya saja belum gambaran any-to-any-to-any penuh yang disiratkan namanya.
Apa yang diubah input multimodal pada brief
Begitu Anda menyusun dari aset alih-alih mendeskripsikan dalam prosa, brief itu sendiri berubah bentuk. Tiga input mengerjakan tugas yang berbeda, dan keahliannya adalah menugaskan masing-masing pada apa yang paling cocok:
- Referensi gambar membawa tampilan — subjek, palet, pembingkaian yang sudah Anda sukai.
- Referensi video membawa gerak — gerakan kamera atau aksi yang ingin Anda gemakan.
- Teks membawa maksud dan segala hal yang belum ditunjukkan aset — suasana, perubahan, hal yang tidak ada di kedua referensi.
Efek praktisnya adalah Anda berhenti mencoba menerjemahkan sebuah gambar menjadi kata sifat. Alih-alih menulis "close-up hangat berkedalaman dangkal dengan push in lambat," Anda menyuplai frame yang sudah terlihat seperti itu dan klip yang sudah bergerak seperti itu, lalu menghabiskan kata-kata Anda untuk apa yang baru. Bagi siapa pun yang pernah berjuang mendeskripsikan estetika spesifik dalam teks, itulah pembuka kunci workflow-nya.
Empat mode tugas, dan cara menggabungkannya
API ini mengekspos empat jenis task, dan semuanya memetakan dengan rapi ke gagasan susun-dari-aset:
text_to_video— deskripsi murni, tanpa aset. Pilihan cadangan saat Anda memulai dari nol.image_to_video— animasikan sebuah still. Titik masuk paling umum: gambar yang kuat menjadi frame pertama dari gerak.reference_to_video— bawa subjek atau gaya dari sebuah referensi ke generasi baru.edit— mode percakapan yang stateful, yang merevisi klip sebelumnya sambil mempertahankan apa yang tidak Anda ubah.
Alur yang dimaksudkan merangkainya: hasilkan atau animasikan sebuah dasar dengan salah satu dari tiga yang pertama, lalu masuk ke edit dan perhalus secara percakapan. Itu bentuk yang sama dengan pasangan Nano Banana 2 Lite ke Omni Flash milik Google sendiri — edit sebuah still, lalu animasikan — yang diperluas lintas giliran.
Nuansa audio, dijabarkan
Karena audio tidak bisa disuplai, desain suara menjadi tugas menulis. Model menghasilkan dialog, efek, dan ambience berdasarkan apa yang dideskripsikan prompt Anda — "hujan lembut di jendela, tanpa musik" atau "satu klik lembut, lalu room tone." Anda mendapat kendali yang berarti, tetapi itu kendali deskriptif, dan itu berarti dua hal untuk perencanaan:
- Jika proyek Anda membutuhkan video hasil generasi cocok dengan trek yang sudah ada — lagu berlisensi, sting merek, VO rekaman — sinkronisasi itu terjadi di langkah audio terpisah, bukan di dalam Omni Flash.
- Jika Anda hanya butuh suara orisinal yang pas, mendeskripsikannya dengan baik dalam prompt sudah cukup tanpa perlu unggahan.
Di mana posisi OmniArt hari ini
Workflow susun-dari-aset bukan sesuatu yang harus Anda tunggu dari Omni Flash untuk dicoba — ia sudah berjalan pada model yang aktif di workspace video OmniArt, dan dalam satu hal mereka melangkah lebih jauh.
Seedance 2.0, tersedia di OmniArt sekarang, dibangun tepat di sekitar gagasan ini: ia menerima hingga sembilan gambar, tiga klip video, dan — yang menonjol — tiga file audio dalam satu prompt, masing-masing terikat ke peran dengan sintaks @image1 / @video1 / @audio1. Itu mencakup input referensi audio yang ditahan Omni Flash. Jika brief Anda bergantung pada memberi model suara spesifik untuk dikerjakan, jalur itu sudah ada hari ini.
Dan arah pergerakannya jelas di seluruh bidang: Seedance 2.5, yang diumumkan pada Juni, mendorong arsitektur referensi yang sama hingga sebanyak 50 input multimodal sekaligus. Input any-to-any bukan cerita satu model — itulah arah tujuan video AI terarah. Omni Flash menamai gagasan itu; workspace-nya sudah memungkinkan Anda mempraktikkannya.
Buka workspace video di OmniArt, susun set referensi Anda, dan biarkan aset membawa tampilan dan gerak sementara kata-kata Anda membawa maksud. Itulah brief any-to-any, tersedia sekarang.
Siap membuat?
Mulai hasilkan konten menakjubkan dengan AI