อินพุต any-to-any ของ Gemini Omni Flash ทำอะไรได้จริง
มัลติโมดัลคือจุดขายเด่นของ Gemini Omni Flash แต่ API ที่เปิดตัวจริงแคบกว่าที่การตลาดพูดไว้ นี่คือสิ่งที่อินพุต any-to-any เปลี่ยนแปลงเกี่ยวกับการเขียนบรีฟจริง ๆ

คำที่แบกภาระหนักที่สุดในการเปิดตัว Gemini Omni Flash คือ "Omni" อันเป็นคำมั่นสัญญาถึงโมเดลเดียวที่คุณป้อนข้อความ รูปภาพ เสียง และวิดีโอได้พร้อมกันในพรอมต์เดียว มันเป็นจุดขายที่ต่างออกไปอย่างแท้จริงจากโมเดลวิดีโออินพุตเดียวที่มาก่อนหน้า และเป็นเหตุผลที่โมเดลนี้สมกับชื่อของมัน แต่เวอร์ชันที่เปิดตัวจริงใน API สำหรับนักพัฒนา แคบกว่ากรอบที่พูดไว้ในงานเปิดตัว และช่องว่างนั้นสำคัญถ้าคุณกำลังวางแผนงานจริงรอบมัน
บทความนี้แยกสิ่งที่ any-to-any ให้คุณได้จริงวันนี้ออกจากสิ่งที่ยังเป็นความมุ่งหวัง แล้วจึงไปสู่ประเด็นที่มีประโยชน์กว่า นั่นคืออินพุตมัลติโมดัลเปลี่ยนวิธีที่คุณเขียนบรีฟอย่างไร
"any-to-any" หมายความว่าอย่างไรจริง ๆ
โมเดลวิดีโอส่วนใหญ่รับการกำกับเพียงชนิดเดียว คุณเขียนข้อความ หรือคุณให้รูปภาพอ้างอิงหนึ่งภาพ แล้วโมเดลทำงานจากสิ่งนั้น อินพุต any-to-any หมายความว่าไวยากรณ์พรอมต์เดียวรับหลายโหมดพร้อมกัน และคืนผลลัพธ์ที่สอดคล้องซึ่งเคารพทุกโหมด ได้แก่ เฟรมอ้างอิงสำหรับลุค คลิปสั้นสำหรับการเคลื่อนไหว และทิศทางที่เขียนสำหรับทุกสิ่งที่เหลือ ทั้งหมดถูกผสาน ไม่ใช่ให้เลือกอย่างใดอย่างหนึ่ง
การเปลี่ยนแปลงคือจาก การอธิบาย ช็อตด้วยคำ ไปสู่ การเรียบเรียง ช็อตจากทรัพย์สิน นั่นคือความสามารถที่แท้จริง และเป็นเหตุผลที่ "มัลติโมดัล" ไม่ใช่การตลาดล้วน ๆ คำถามคือมันใช้งานได้จริงมากแค่ไหน
จุดขายเทียบกับ API ที่เปิดตัวจริง
นี่คือตารางที่ตรงไปตรงมาสำหรับพรีวิวปัจจุบัน ตรงจากเอกสารของ API เอง
| อินพุต | สถานะ | หมายเหตุ |
|---|---|---|
| พรอมต์ข้อความ | รองรับ | กระดูกสันหลังของทุกการสร้าง |
| รูปภาพอ้างอิง | รองรับ | Text-to-video, image-to-video และการอ้างอิงซับเจกต์ |
| วิดีโออ้างอิง | รองรับ แต่มีข้อแม้ | การอ้างอิงที่ยาวเกิน 3 วินาทีจะไม่ถูกประมวลผลเต็มที่ |
| เสียงอ้างอิง | ไม่รองรับ | คุณอัปโหลดเสียงหรือเสียงพูดให้โมเดลจับคู่ไม่ได้ |
| วิดีโออ้างอิงหลายไฟล์ | ไม่รองรับ | หนึ่งคลิปอ้างอิงต่อการสร้าง |
| พรอมต์ที่ไม่ใช่ภาษาอังกฤษ | ยังไม่ได้ทดสอบ | ภาษาอังกฤษเป็นภาษาเดียวที่รองรับเต็มที่ |
คำเตือน
ช่องว่างด้านเสียงคือสิ่งที่มีโอกาสสูงสุดที่จะทำให้แผนสะดุด Omni Flash สร้างแทร็กเสียงโดยอัตโนมัติ แต่ "any-to-any" ไม่รวมการส่งแทร็กเพลง เสียงบรรยาย หรือเสียงบรรยากาศที่บันทึกไว้ให้มันซิงค์ด้วย เสียงคือเอาต์พุตที่คุณกำกับด้วยคำ ไม่ใช่อินพุตที่คุณป้อน
ดังนั้นการอ่านที่ถูกต้องคือ any-to-any วันนี้เท่ากับ ข้อความ + รูปภาพ + วิดีโอ เข้า, วิดีโอ (พร้อมเสียงที่สร้างขึ้น) ออก ครึ่งที่เป็นเสียงเข้าของคำมั่นมัลติโมดัลถูกกันไว้โดยตั้งใจ สอดคล้องกับ ฟีเจอร์แก้ไขคำพูดในวิดีโอและอวตารที่ Google กันไว้ตอนเปิดตัว ด้วยเหตุผลด้านความปลอดภัย มันเป็นการเปลี่ยนแปลงความสามารถที่แท้จริงเหนือโมเดลอินพุตเดียว เพียงแต่ยังไม่ใช่ภาพ any-to-any-to-any เต็มรูปแบบตามที่ชื่อสื่อถึง
อินพุตมัลติโมดัลเปลี่ยนอะไรเกี่ยวกับบรีฟ
เมื่อคุณเรียบเรียงจากทรัพย์สินแทนที่จะอธิบายเป็นร้อยแก้ว ตัวบรีฟเองก็เปลี่ยนรูปร่าง อินพุตสามอย่างทำหน้าที่ต่างกัน และทักษะคือการมอบหมายแต่ละอย่างให้กับสิ่งที่มันทำได้ดีที่สุด
- รูปภาพอ้างอิง แบกลุค ได้แก่ ซับเจกต์ โทนสี การจัดเฟรมที่คุณชอบอยู่แล้ว
- วิดีโออ้างอิง แบกการเคลื่อนไหว ได้แก่ การเคลื่อนกล้องหรือการกระทำที่คุณอยากให้สะท้อนออกมา
- ข้อความ แบกเจตนาและทุกสิ่งที่ทรัพย์สินยังไม่ได้แสดง ได้แก่ อารมณ์ การเปลี่ยนแปลง สิ่งที่ไม่มีอยู่ในทั้งสองการอ้างอิง
ผลในทางปฏิบัติคือคุณเลิกพยายามแปลภาพให้เป็นคำคุณศัพท์ แทนที่จะเขียน "ภาพระยะใกล้ที่อบอุ่นระยะชัดตื้นพร้อมการดันเข้าช้า ๆ" คุณให้เฟรมที่ดูแบบนั้นอยู่แล้วและคลิปที่เคลื่อนไหวแบบนั้นอยู่แล้ว แล้วใช้คำของคุณกับสิ่งที่เป็นของใหม่ สำหรับใครก็ตามที่เคยดิ้นรนอธิบายสุนทรียะเฉพาะเจาะจงเป็นข้อความ นั่นคือการปลดล็อกเวิร์กโฟลว์
สี่โหมดงาน และวิธีที่มันผสมกัน
API เปิดเผยประเภท task สี่แบบ และมันแมปเข้ากับแนวคิดเรียบเรียงจากทรัพย์สินอย่างลงตัว
text_to_video— การอธิบายล้วน ไม่มีทรัพย์สิน เป็นทางเลือกสำรองเมื่อคุณเริ่มจากศูนย์image_to_video— ทำให้ภาพนิ่งเคลื่อนไหว จุดเริ่มต้นที่พบบ่อยที่สุด รูปภาพที่แข็งแรงกลายเป็นเฟรมแรกของการเคลื่อนไหวreference_to_video— นำซับเจกต์หรือสไตล์จากการอ้างอิงเข้าสู่การสร้างใหม่edit— โหมดแบบสนทนาที่มีสถานะ ซึ่งแก้ไขคลิปก่อนหน้าในขณะที่ยังคงรักษาสิ่งที่คุณไม่ได้เปลี่ยนไว้
ขั้นตอนที่ตั้งใจไว้จะเชื่อมโยงมันเข้าด้วยกัน คือสร้างหรือทำให้ฐานเคลื่อนไหวด้วยหนึ่งในสามแบบแรก แล้วย้ายเข้าสู่ edit เพื่อขัดเกลาแบบสนทนา นั่นคือรูปแบบเดียวกับการจับคู่ Nano Banana 2 Lite กับ Omni Flash ของ Google เอง คือแก้ภาพนิ่ง แล้วทำให้เคลื่อนไหว โดยขยายข้ามหลายรอบ
รายละเอียดปลีกย่อยด้านเสียง อธิบายให้ชัด
เพราะเสียงป้อนเข้าไม่ได้ การออกแบบเสียงจึงกลายเป็นงานเขียน โมเดลสร้างบทสนทนา เอฟเฟกต์ และบรรยากาศตามที่พรอมต์ของคุณอธิบาย เช่น "gentle rain on a window, no music" หรือ "a single soft click, then room tone" คุณได้การควบคุมที่มีความหมาย แต่เป็นการควบคุมเชิงบรรยาย และมันหมายถึงสองสิ่งสำหรับการวางแผน
- ถ้าโปรเจกต์ของคุณต้องการให้วิดีโอที่สร้างขึ้นเข้ากับแทร็กที่มีอยู่ ได้แก่ เพลงที่มีลิขสิทธิ์ เสียงประจำแบรนด์ เสียงบรรยายที่บันทึกไว้ การซิงค์นั้นเกิดในขั้นตอนเสียงแยกต่างหาก ไม่ใช่ภายใน Omni Flash
- ถ้าคุณแค่ต้องการเสียงต้นฉบับที่เข้ากัน การอธิบายมันให้ดีในพรอมต์ก็พาคุณไปถึงได้โดยไม่ต้องอัปโหลด
OmniArt อยู่ตรงไหนวันนี้
เวิร์กโฟลว์เรียบเรียงจากทรัพย์สินไม่ใช่สิ่งที่คุณต้องรอ Omni Flash เพื่อลอง เพราะมันทำงานได้แล้วบนโมเดลที่ใช้งานได้ใน video workspace ของ OmniArt และในแง่หนึ่งพวกมันไปไกลกว่า
Seedance 2.0 ที่ใช้งานได้บน OmniArt แล้วตอนนี้ ถูกสร้างขึ้นรอบแนวคิดนี้พอดี มันรับได้สูงสุดเก้ารูปภาพ สามคลิปวิดีโอ และที่น่าสังเกตคือสามไฟล์เสียงในพรอมต์เดียว โดยแต่ละอย่างผูกกับบทบาทด้วยไวยากรณ์ @image1 / @video1 / @audio1 ซึ่งรวมถึงอินพุตเสียงอ้างอิงที่ Omni Flash กันไว้ ถ้าบรีฟของคุณขึ้นอยู่กับการป้อนเสียงเฉพาะให้โมเดลใช้งาน เส้นทางนั้นมีอยู่แล้ววันนี้
และทิศทางการเดินทางชัดเจนทั่วทั้งวงการ Seedance 2.5 ที่ประกาศในเดือนมิถุนายน ผลักสถาปัตยกรรมการอ้างอิงเดียวกันไปถึงอินพุตมัลติโมดัลมากถึง 50 รายการพร้อมกัน อินพุต any-to-any ไม่ใช่เรื่องราวของโมเดลเดียว แต่คือทิศทางที่วิดีโอ AI แบบกำกับกำลังมุ่งไป Omni Flash ตั้งชื่อให้แนวคิดนี้ ส่วน workspace ให้คุณฝึกฝนมันได้แล้ว
เปิด video workspace บน OmniArt ประกอบชุดการอ้างอิงของคุณ แล้วให้ทรัพย์สินแบกลุคและการเคลื่อนไหวในขณะที่คำของคุณแบกเจตนา นั่นคือบรีฟ any-to-any ที่ใช้งานได้แล้วตอนนี้
พร้อมสร้างหรือยัง?
เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI