industryโมเดลและข้อมูลเชิงลึกอ่าน 2 นาที

อินพุต any-to-any ของ Gemini Omni Flash ทำอะไรได้จริง

มัลติโมดัลคือจุดขายเด่นของ Gemini Omni Flash แต่ API ที่เปิดตัวจริงแคบกว่าที่การตลาดพูดไว้ นี่คือสิ่งที่อินพุต any-to-any เปลี่ยนแปลงเกี่ยวกับการเขียนบรีฟจริง ๆ

ทีม OmniArt1 ก.ค. 2569

คำที่แบกภาระหนักที่สุดในการเปิดตัว Gemini Omni Flash คือ "Omni" อันเป็นคำมั่นสัญญาถึงโมเดลเดียวที่คุณป้อนข้อความ รูปภาพ เสียง และวิดีโอได้พร้อมกันในพรอมต์เดียว มันเป็นจุดขายที่ต่างออกไปอย่างแท้จริงจากโมเดลวิดีโออินพุตเดียวที่มาก่อนหน้า และเป็นเหตุผลที่โมเดลนี้สมกับชื่อของมัน แต่เวอร์ชันที่เปิดตัวจริงใน API สำหรับนักพัฒนา แคบกว่ากรอบที่พูดไว้ในงานเปิดตัว และช่องว่างนั้นสำคัญถ้าคุณกำลังวางแผนงานจริงรอบมัน

บทความนี้แยกสิ่งที่ any-to-any ให้คุณได้จริงวันนี้ออกจากสิ่งที่ยังเป็นความมุ่งหวัง แล้วจึงไปสู่ประเด็นที่มีประโยชน์กว่า นั่นคืออินพุตมัลติโมดัลเปลี่ยนวิธีที่คุณเขียนบรีฟอย่างไร

"any-to-any" หมายความว่าอย่างไรจริง ๆ

โมเดลวิดีโอส่วนใหญ่รับการกำกับเพียงชนิดเดียว คุณเขียนข้อความ หรือคุณให้รูปภาพอ้างอิงหนึ่งภาพ แล้วโมเดลทำงานจากสิ่งนั้น อินพุต any-to-any หมายความว่าไวยากรณ์พรอมต์เดียวรับหลายโหมดพร้อมกัน และคืนผลลัพธ์ที่สอดคล้องซึ่งเคารพทุกโหมด ได้แก่ เฟรมอ้างอิงสำหรับลุค คลิปสั้นสำหรับการเคลื่อนไหว และทิศทางที่เขียนสำหรับทุกสิ่งที่เหลือ ทั้งหมดถูกผสาน ไม่ใช่ให้เลือกอย่างใดอย่างหนึ่ง

การเปลี่ยนแปลงคือจาก การอธิบาย ช็อตด้วยคำ ไปสู่ การเรียบเรียง ช็อตจากทรัพย์สิน นั่นคือความสามารถที่แท้จริง และเป็นเหตุผลที่ "มัลติโมดัล" ไม่ใช่การตลาดล้วน ๆ คำถามคือมันใช้งานได้จริงมากแค่ไหน

จุดขายเทียบกับ API ที่เปิดตัวจริง

นี่คือตารางที่ตรงไปตรงมาสำหรับพรีวิวปัจจุบัน ตรงจากเอกสารของ API เอง

อินพุต	สถานะ	หมายเหตุ
พรอมต์ข้อความ	รองรับ	กระดูกสันหลังของทุกการสร้าง
รูปภาพอ้างอิง	รองรับ	Text-to-video, image-to-video และการอ้างอิงซับเจกต์
วิดีโออ้างอิง	รองรับ แต่มีข้อแม้	การอ้างอิงที่ยาวเกิน 3 วินาทีจะไม่ถูกประมวลผลเต็มที่
เสียงอ้างอิง	ไม่รองรับ	คุณอัปโหลดเสียงหรือเสียงพูดให้โมเดลจับคู่ไม่ได้
วิดีโออ้างอิงหลายไฟล์	ไม่รองรับ	หนึ่งคลิปอ้างอิงต่อการสร้าง
พรอมต์ที่ไม่ใช่ภาษาอังกฤษ	ยังไม่ได้ทดสอบ	ภาษาอังกฤษเป็นภาษาเดียวที่รองรับเต็มที่

คำเตือน

ช่องว่างด้านเสียงคือสิ่งที่มีโอกาสสูงสุดที่จะทำให้แผนสะดุด Omni Flash สร้างแทร็กเสียงโดยอัตโนมัติ แต่ "any-to-any" ไม่รวมการส่งแทร็กเพลง เสียงบรรยาย หรือเสียงบรรยากาศที่บันทึกไว้ให้มันซิงค์ด้วย เสียงคือเอาต์พุตที่คุณกำกับด้วยคำ ไม่ใช่อินพุตที่คุณป้อน

ดังนั้นการอ่านที่ถูกต้องคือ any-to-any วันนี้เท่ากับ ข้อความ + รูปภาพ + วิดีโอ เข้า, วิดีโอ (พร้อมเสียงที่สร้างขึ้น) ออก ครึ่งที่เป็นเสียงเข้าของคำมั่นมัลติโมดัลถูกกันไว้โดยตั้งใจ สอดคล้องกับ ฟีเจอร์แก้ไขคำพูดในวิดีโอและอวตารที่ Google กันไว้ตอนเปิดตัว ด้วยเหตุผลด้านความปลอดภัย มันเป็นการเปลี่ยนแปลงความสามารถที่แท้จริงเหนือโมเดลอินพุตเดียว เพียงแต่ยังไม่ใช่ภาพ any-to-any-to-any เต็มรูปแบบตามที่ชื่อสื่อถึง

อินพุตมัลติโมดัลเปลี่ยนอะไรเกี่ยวกับบรีฟ

เมื่อคุณเรียบเรียงจากทรัพย์สินแทนที่จะอธิบายเป็นร้อยแก้ว ตัวบรีฟเองก็เปลี่ยนรูปร่าง อินพุตสามอย่างทำหน้าที่ต่างกัน และทักษะคือการมอบหมายแต่ละอย่างให้กับสิ่งที่มันทำได้ดีที่สุด

รูปภาพอ้างอิง แบกลุค ได้แก่ ซับเจกต์ โทนสี การจัดเฟรมที่คุณชอบอยู่แล้ว
วิดีโออ้างอิง แบกการเคลื่อนไหว ได้แก่ การเคลื่อนกล้องหรือการกระทำที่คุณอยากให้สะท้อนออกมา
ข้อความ แบกเจตนาและทุกสิ่งที่ทรัพย์สินยังไม่ได้แสดง ได้แก่ อารมณ์ การเปลี่ยนแปลง สิ่งที่ไม่มีอยู่ในทั้งสองการอ้างอิง

ผลในทางปฏิบัติคือคุณเลิกพยายามแปลภาพให้เป็นคำคุณศัพท์ แทนที่จะเขียน "ภาพระยะใกล้ที่อบอุ่นระยะชัดตื้นพร้อมการดันเข้าช้า ๆ" คุณให้เฟรมที่ดูแบบนั้นอยู่แล้วและคลิปที่เคลื่อนไหวแบบนั้นอยู่แล้ว แล้วใช้คำของคุณกับสิ่งที่เป็นของใหม่ สำหรับใครก็ตามที่เคยดิ้นรนอธิบายสุนทรียะเฉพาะเจาะจงเป็นข้อความ นั่นคือการปลดล็อกเวิร์กโฟลว์

สี่โหมดงาน และวิธีที่มันผสมกัน

API เปิดเผยประเภท task สี่แบบ และมันแมปเข้ากับแนวคิดเรียบเรียงจากทรัพย์สินอย่างลงตัว

text_to_video — การอธิบายล้วน ไม่มีทรัพย์สิน เป็นทางเลือกสำรองเมื่อคุณเริ่มจากศูนย์
image_to_video — ทำให้ภาพนิ่งเคลื่อนไหว จุดเริ่มต้นที่พบบ่อยที่สุด รูปภาพที่แข็งแรงกลายเป็นเฟรมแรกของการเคลื่อนไหว
reference_to_video — นำซับเจกต์หรือสไตล์จากการอ้างอิงเข้าสู่การสร้างใหม่
edit — โหมดแบบสนทนาที่มีสถานะ ซึ่งแก้ไขคลิปก่อนหน้าในขณะที่ยังคงรักษาสิ่งที่คุณไม่ได้เปลี่ยนไว้

ขั้นตอนที่ตั้งใจไว้จะเชื่อมโยงมันเข้าด้วยกัน คือสร้างหรือทำให้ฐานเคลื่อนไหวด้วยหนึ่งในสามแบบแรก แล้วย้ายเข้าสู่ edit เพื่อขัดเกลาแบบสนทนา นั่นคือรูปแบบเดียวกับการจับคู่ Nano Banana 2 Lite กับ Omni Flash ของ Google เอง คือแก้ภาพนิ่ง แล้วทำให้เคลื่อนไหว โดยขยายข้ามหลายรอบ

รายละเอียดปลีกย่อยด้านเสียง อธิบายให้ชัด

เพราะเสียงป้อนเข้าไม่ได้ การออกแบบเสียงจึงกลายเป็นงานเขียน โมเดลสร้างบทสนทนา เอฟเฟกต์ และบรรยากาศตามที่พรอมต์ของคุณอธิบาย เช่น "gentle rain on a window, no music" หรือ "a single soft click, then room tone" คุณได้การควบคุมที่มีความหมาย แต่เป็นการควบคุมเชิงบรรยาย และมันหมายถึงสองสิ่งสำหรับการวางแผน

ถ้าโปรเจกต์ของคุณต้องการให้วิดีโอที่สร้างขึ้นเข้ากับแทร็กที่มีอยู่ ได้แก่ เพลงที่มีลิขสิทธิ์ เสียงประจำแบรนด์ เสียงบรรยายที่บันทึกไว้ การซิงค์นั้นเกิดในขั้นตอนเสียงแยกต่างหาก ไม่ใช่ภายใน Omni Flash
ถ้าคุณแค่ต้องการเสียงต้นฉบับที่เข้ากัน การอธิบายมันให้ดีในพรอมต์ก็พาคุณไปถึงได้โดยไม่ต้องอัปโหลด

OmniArt อยู่ตรงไหนวันนี้

เวิร์กโฟลว์เรียบเรียงจากทรัพย์สินไม่ใช่สิ่งที่คุณต้องรอ Omni Flash เพื่อลอง เพราะมันทำงานได้แล้วบนโมเดลที่ใช้งานได้ใน video workspace ของ OmniArt และในแง่หนึ่งพวกมันไปไกลกว่า

Seedance 2.0 ที่ใช้งานได้บน OmniArt แล้วตอนนี้ ถูกสร้างขึ้นรอบแนวคิดนี้พอดี มันรับได้สูงสุดเก้ารูปภาพ สามคลิปวิดีโอ และที่น่าสังเกตคือสามไฟล์เสียงในพรอมต์เดียว โดยแต่ละอย่างผูกกับบทบาทด้วยไวยากรณ์ @image1 / @video1 / @audio1 ซึ่งรวมถึงอินพุตเสียงอ้างอิงที่ Omni Flash กันไว้ ถ้าบรีฟของคุณขึ้นอยู่กับการป้อนเสียงเฉพาะให้โมเดลใช้งาน เส้นทางนั้นมีอยู่แล้ววันนี้

และทิศทางการเดินทางชัดเจนทั่วทั้งวงการ Seedance 2.5 ที่ประกาศในเดือนมิถุนายน ผลักสถาปัตยกรรมการอ้างอิงเดียวกันไปถึงอินพุตมัลติโมดัลมากถึง 50 รายการพร้อมกัน อินพุต any-to-any ไม่ใช่เรื่องราวของโมเดลเดียว แต่คือทิศทางที่วิดีโอ AI แบบกำกับกำลังมุ่งไป Omni Flash ตั้งชื่อให้แนวคิดนี้ ส่วน workspace ให้คุณฝึกฝนมันได้แล้ว

เปิด video workspace บน OmniArt ประกอบชุดการอ้างอิงของคุณ แล้วให้ทรัพย์สินแบกลุคและการเคลื่อนไหวในขณะที่คำของคุณแบกเจตนา นั่นคือบรีฟ any-to-any ที่ใช้งานได้แล้วตอนนี้

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี