industryModeller ve içgörüler5 dk okuma

Gemini Omni Flash any-to-any girdi: gerçekte ne yapıyor

Çok modlu olmak Gemini Omni Flash'ın imza vaadi, ama yayınlanan API pazarlamadan daha dar. Any-to-any girdinin brifingi gerçekte nasıl değiştirdiği burada.

OmniArt Ekibi
Gemini Omni Flash any-to-any girdi: gerçekte ne yapıyor

Gemini Omni Flash'ın lansmanında en ağır yükü taşıyan kelime "Omni"ydi — modele tek bir prompt'ta aynı anda metin, görsel, ses ve video verebileceğiniz bir modelin vaadi. Kendisinden önce gelen tek girdili video modellerinden gerçekten farklı bir vaat ve modelin adını hak etmesinin nedeni bu. Ancak geliştirici API'sinde yayınlanan sürüm, keynote çerçevesinden daha dar ve etrafında gerçek iş planlıyorsanız bu fark önemli.

Bu yazı, any-to-any'nin bugün gerçekte size ne kazandırdığını hâlâ hedeflenen şeyden ayırıyor — ve ardından daha faydalı noktaya geliyor: çok modlu girdinin bir brifingi yazma biçiminizi nasıl değiştirdiği.

"Any-to-any" gerçekte ne demek

Çoğu video modeli tek tür yönlendirme kabul eder. Metin yazarsınız ya da tek bir referans görsel verirsiniz; model bundan çalışır. Any-to-any girdi, tek bir prompt gramerinin birkaç modaliteyi birlikte kabul etmesi ve hepsine saygı gösteren tutarlı bir sonuç döndürmesi anlamına gelir: görünüm için bir referans karesi, hareket için kısa bir klip ve geri kalan her şey için yazılı bir yönlendirme — aralarından seçmek değil, birleştirmek.

Değişim, bir çekimi kelimelerle tarif etmekten onu varlıklardan kompoze etmeye geçiştir. Asıl yetenek budur ve "omni-modal"in salt pazarlama olmamasının nedeni de budur. Soru, bunun ne kadarının canlı olduğu.

Vaat ile yayınlanan API karşılaştırması

Mevcut önizleme için dürüst matris, doğrudan API'nin kendi dokümantasyonundan:

GirdiDurumNotlar
Metin prompt'uDestekleniyorHer üretimin bel kemiği
Görsel referansDestekleniyorMetinden videoya, görüntüden videoya ve özne referansı
Video referansDestekleniyor, bir çekince ile3 saniyeden uzun referanslar tam işlenmez
Ses referansıDesteklenmiyorModelin eşleşmesi için bir ses ya da konuşma yükleyemezsiniz
Çoklu video referansıDesteklenmiyorÜretim başına tek referans klip
İngilizce dışı prompt'larTest edilmemişTam desteklenen tek dil İngilizce

Uyarı

Ses boşluğu, bir planı en çok sekteye uğratma olasılığı olan şey. Omni Flash varsayılan olarak bir ses parçası üretir, ancak "any-to-any" ona senkronize olması için bir müzik altyapısı, bir seslendirme ya da bir ortam kaydı vermeyi içermez. Ses, kelimelerle yönlendirdiğiniz bir çıktıdır, sağladığınız bir girdi değil.

Yani doğru okuma şu: any-to-any bugün metin + görsel + video girer, video (üretilmiş sesle) çıkar demektir. Omni-modal vaadinin ses-girişi yarısı bilinçli olarak tutuluyor — Google'ın güvenlik nedeniyle lansmanda geri çektiği video içi konuşma düzenleme ve avatar özellikleriyle tutarlı biçimde. Tek girdili modellere göre gerçek bir yetenek değişikliği; yalnızca adın ima ettiği tam any-to-any-to-any tablosu henüz değil.

Çok modlu girdi brifingi nasıl değiştiriyor

Prose ile tarif etmek yerine varlıklardan kompoze etmeye başladığınızda, brifingin kendisi biçim değiştirir. Üç girdi farklı işler yapar ve beceri, her birini en iyi olduğu şeye atamaktır:

  • Görsel referans görünümü taşır — zaten beğendiğiniz özneyi, paleti, çerçevelemeyi.
  • Video referans hareketi taşır — yankılanmasını istediğiniz bir kamera hareketi ya da bir eylem.
  • Metin niyeti ve varlıkların zaten göstermediği her şeyi taşır — atmosfer, değişiklikler, iki referansta da olmayan şey.

Pratik etki şudur: bir resmi sıfatlara çevirmeye çalışmayı bırakırsınız. "A warm, shallow-depth close-up with a slow push-in" yazmak yerine, zaten öyle görünen kareyi ve zaten öyle hareket eden klibi verirsiniz ve kelimelerinizi yeni olana harcarsınız. Belirli bir estetiği metinle tarif etmek için uğraşmış herkes için bu, iş akışının kilidini açan şeydir.

Dört görev modu ve bunların birleşimi

API dört task türü açığa çıkarır ve bunlar varlıklardan-kompoze-et fikrine temiz biçimde eşlenir:

  1. text_to_video — saf tarif, varlık yok. Sıfırdan başlarken başvurulan seçenek.
  2. image_to_video — bir durağan görseli canlandır. En yaygın giriş noktası: güçlü bir görsel, hareketin ilk karesi olur.
  3. reference_to_video — bir özneyi ya da stili bir referanstan yeni bir üretime taşı.
  4. edit — değiştirmediğinizi korurken önceki klibi revize eden, konuşma tabanlı ve durum tutan mod.

Amaçlanan akış bunları zincirler: ilk üçünden biriyle bir temel üretin ya da canlandırın, sonra edit'e geçip konuşarak inceltin. Bu, Google'ın kendi Nano Banana 2 Lite'tan Omni Flash'a eşleşmesiyle aynı biçimdir — bir durağan görseli düzenle, sonra canlandır — turlar boyunca genişletilmiş hâli.

Ses nüansı, açıkça

Ses sağlanamadığı için, ses tasarımı bir yazma görevine dönüşür. Model; diyaloğu, efektleri ve ortamı prompt'unuzun tarif ettiğine göre üretir — "gentle rain on a window, no music" ya da "a single soft click, then room tone". Anlamlı bir kontrol elde edersiniz, ama bu betimsel bir kontroldür ve planlama için iki şey ifade eder:

  • Projeniz üretilen videonun mevcut bir parçayla eşleşmesini gerektiriyorsa — lisanslı bir şarkı, bir marka sting'i, kaydedilmiş bir seslendirme — o senkronizasyon Omni Flash'ın içinde değil, ayrı bir ses adımında gerçekleşir.
  • Yalnızca uyumlu, özgün bir sese ihtiyacınız varsa, onu prompt'ta iyi tarif etmek sizi yükleme yapmadan hedefe götürür.

OmniArt bugün nerede duruyor

Varlıklardan-kompoze-et iş akışı, denemek için Omni Flash'ı beklemeniz gereken bir şey değil — OmniArt'ın video çalışma alanında canlı olan modellerde zaten çalışıyor ve bir açıdan daha da ileri gidiyorlar.

Şu anda OmniArt'ta kullanılabilen Seedance 2.0, tam olarak bu fikir etrafında kuruldu: tek bir prompt'ta dokuz görsele, üç video klibine ve — dikkat çekici biçimde — üç ses dosyasına kadar kabul eder; her biri @image1 / @video1 / @audio1 sözdizimiyle bir role bağlanır. Buna Omni Flash'ın esirgediği ses-referansı girdisi de dahildir. Brifinginiz modele çalışması için belirli bir ses vermeye bağlıysa, o yol bugün mevcut.

Ve alandaki gidişat açık: Haziran'da duyurulan Seedance 2.5, aynı referans mimarisini tek seferde 50 çok modlu girdiye kadar çıkarıyor. Any-to-any girdi tek modelli bir hikâye değil — yönetilen yapay zeka videonun gittiği yer burası. Omni Flash fikri adlandırdı; çalışma alanı ise onu uygulamanıza şimdiden izin veriyor.

OmniArt'ta video çalışma alanını açın, referans setinizi kurun ve varlıklar görünümü ile hareketi taşırken kelimeleriniz niyeti taşısın. İşte any-to-any brifing bu, ve şimdi kullanılabilir.

Oluşturmaya hazır mısınız?

AI ile harika içerikler üretmeye başlayın

Ücretsiz başla