Grok Imagine 1.5 vs 1.0: +52 Elo เปลี่ยนอะไรจริงๆ บ้าง
Grok Imagine 1.5 ของ xAI กระโดดขึ้น +52 Elo เหนือ 1.0 ขึ้นสู่อันดับ 1 ของ Image-to-Video Arena เราแยกย่อยความก้าวหน้านี้ออกเป็น 4 การเปลี่ยนแปลงที่ผู้สร้างรู้สึกได้ทันที ได้แก่ เสียงแบบเนทีฟ คลิป 15 วินาที ความสม่ำเสมอของใบหน้า และ Extend from Frame พร้อมผลเปรียบเทียบใน OmniArt

Grok Imagine 1.5 เปิดตัวในรูปแบบ Preview Update และสร้างความแตกต่างได้จริง: +52 Elo เหนือ 1.0 ก้าวขึ้นสู่อันดับ 1 ของ Image-to-Video Arena แซงหน้า Seedance 2.0, HappyHorse 1.0 และ Google Veo ในการทดสอบแบบปิดตา การกระโดดขึ้น 52 คะแนนในลีดเดอร์บอร์ดที่เติบโตเต็มที่แล้วถือเป็นสัญญาณที่มีความหมาย นั่นคืออัตราการชนะของ 1.5 อยู่ที่ราว 57% ในการแข่งขันโดยตรงกับ 1.0
ตัวเลขคือหัวข้อข่าว สิ่งที่สำคัญสำหรับงานจริงคือการเปลี่ยนแปลงอะไรเฉพาะเจาะจงที่ทำให้เกิดผลนี้ เราได้ทดสอบ 1.5 ควบคู่กับ 1.0 ในพื้นที่ทำงานวิดีโอของ OmniArt และพบว่าความก้าวหน้านี้สืบเนื่องมาจาก 4 สิ่งที่ผู้สร้างรู้สึกได้ทันที ไม่มีข้อใดที่เป็นเพียงความแตกต่างเล็กน้อย
หากคุณเพิ่งเริ่มต้นกับ Grok Imagine ให้เริ่มจากคู่มือพื้นฐานก่อน ที่นั่นครอบคลุมโหมดการสร้าง 6 โหมด รูปแบบ prompt และการคำนวณเครดิตอย่างละเอียด บทความนี้สมมติว่าคุณเคยสร้างคลิปด้วย 1.0 มาแล้วอย่างน้อยสองสามชิ้น และอยากรู้ว่าอะไรควรสร้างใหม่
เปรียบเทียบสเปคด่วน: 1.0 vs 1.5
| สเปค | Grok Imagine 1.0 | Grok Imagine 1.5 |
|---|---|---|
| ความละเอียดสูงสุด | 720p | 720p |
| ความยาวสูงสุด | 10 วินาที | 15 วินาที |
| อัตราส่วนภาพ | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| เสียง | เนทีฟ สร้างร่วมกัน | เนทีฟ สร้างร่วมกัน — ปรับปรุงแล้ว |
| ความสม่ำเสมอของใบหน้า | ระดับพื้นฐาน | ดีขึ้นอย่างเห็นได้ชัด |
| Extend from Frame | ต่อจากเฟรมสุดท้าย | เลือกเฟรมได้ชัดเจน ความต่อเนื่องดีขึ้น |
| ฐานการสร้างภาพ | FLUX.1 (Black Forest Labs) | FLUX.1 (Black Forest Labs) |
| ค่าใช้จ่าย (480p) | 10 เครดิต/วินาที | 10 เครดิต/วินาที |
| ค่าใช้จ่าย (720p) | 15 เครดิต/วินาที | 15 เครดิต/วินาที |
| อันดับ Arena | หลายอันดับต่ำกว่าอันดับ 1 | อันดับ 1 ของ Image-to-Video Arena |
ขีดจำกัดความละเอียดและราคาเครดิตไม่เปลี่ยนแปลง ความก้าวหน้าอยู่ที่สิ่งที่โมเดลทำภายใต้ข้อจำกัดเหล่านั้น
การเปลี่ยนแปลงที่ 1: เสียงแบบเนทีฟฟังดูเหมือนสร้างในครั้งเดียว
Grok Imagine สร้างเสียงมาตั้งแต่ 1.0 ได้แก่ บทสนทนา การเคลื่อนไหวริมฝีปาก เอฟเฟกต์เสียง และเพลงบรรยากาศ ทั้งหมดสร้างจาก video token ในการอนุมานครั้งเดียวโดยไม่มีโมเดลเสียงแยกต่างหาก ในทางปฏิบัติ เสียงของ 1.0 มีปัญหาที่เกิดซ้ำสองอย่าง ได้แก่ จังหวะบทสนทนาที่เป็นกลไก (คำปรากฏในช่วงเวลาเท่ากัน หยุดที่ขอบเขตไวยากรณ์แทนจุดหายใจตามธรรมชาติ) และเสียงบรรยากาศแบบแบน (ฉากในร้านกาแฟที่มีเสียงพื้นหลังเดียวไม่มีความหลากหลายเชิงพื้นที่)
1.5 แก้ไขทั้งสองปัญหา สถาปัตยกรรม single-pass แบบเดิมตอนนี้สร้างน้ำเสียงระดับประโยค วลีสั้นๆ ที่กระชับจบด้วยน้ำเสียงตก ส่วนคำพูดอธิบายที่ยาวขึ้นมีการยกเสียงกลางประโยคก่อนจบ เสียงบรรยากาศรู้สึกมีหลายชั้น ฉากถนนสร้างเสียงจราจรในระยะไกล เสียงก้าวเท้าใกล้ๆ และเสียงประตูร้านค้าที่อยู่ด้านหลัง เอฟเฟกต์เหล่านี้ไม่ได้ผ่านการประมวลผลภายหลัง แต่สร้างด้วยตรรกะแบบลำดับทีละเฟรมเดียวกับที่เครื่องยนต์ Aurora ใช้สำหรับการเคลื่อนไหว แต่ละเฟรมแจ้งข้อมูลให้เฟรมถัดไป และสภาพแวดล้อมทางเสียงก็ติดตามวิถีภาพ
Prompt สำหรับ 1.0: "บาริสต้าอธิบายกระบวนการชงกาแฟให้กับลูกค้าข้ามเคาน์เตอร์ ฉากหลังร้านกาแฟ แสงอบอุ่น"
- ผลลัพธ์ใน 1.0: บทสนทนาปรากฏเป็นชุดๆ ในจังหวะสม่ำเสมอ เสียงเครื่องชงกาแฟดังคงที่ตลอดทั้งคลิป
- ผลลัพธ์ใน 1.5: คำอธิบายของบาริสต้ามีการหยุดกลางประโยคตามธรรมชาติ เครื่องชงดังขึ้นเมื่อมีออเดอร์ใหม่ ส่วนเสียงตอบรับที่พึมพำของลูกค้าเบากว่าและอยู่ในตำแหน่งที่ห่างออกไปในเชิงพื้นที่
ช่องว่างชัดเจนที่สุดในคลิปที่มีบทสนทนาหนาแน่น หากคุณเคยนำวิดีโอ Grok 1.0 ผ่านโมเดลเสียงแยกต่างหากสำหรับงานเสียงพูด 1.5 ปิดช่องว่างส่วนใหญ่นั้นได้แบบเนทีฟ
การเปลี่ยนแปลงที่ 2: 10 วินาทีกลายเป็น 15 วินาที
Grok Imagine 1.0 จำกัดคลิปไว้ที่ 10 วินาที 1.5 ยกระดับเป็น 15 วินาที รองรับความยาวจำนวนเต็มใดๆ ตั้งแต่ 1 ถึง 15 ห้าวินาทีที่เพิ่มขึ้นฟังดูเล็กน้อย ในทางปฏิบัติมันคือความแตกต่างระหว่างคลิปโซเชียลที่ต้องผ่าน Extend หนึ่งรอบกับคลิปที่เสร็จสมบูรณ์ในการสร้างครั้งแรก
การคำนวณเครดิตเปลี่ยนแปลงอย่างมีนัยสำคัญสำหรับกรณีใช้งานทั่วไป:
| กรณีใช้งาน | 1.0 (สูงสุด 10 วิ + ขยายถึง 15 วิ) | 1.5 (15 วิแบบเนทีฟ) |
|---|---|---|
| TikTok 15 วิ, 480p | 100 (10 วิ) + 75 (5 วิ ขยาย) = 175 | 150 |
| TikTok 15 วิ, 720p | 150 (10 วิ) + 112.5 (5 วิ ขยาย) = 262.5 | 225 |
| ถ่ายสินค้า 10 วิ, 720p | 150 | 150 (ไม่เปลี่ยน) |
สำหรับรูปแบบโซเชียลที่พบบ่อยที่สุด คือคลิป 15 วินาที 1.5 มีราคาถูกกว่าประมาณ 14% ที่ 480p และ 14% ที่ 720p เมื่อเทียบกับวิธีสร้างแล้วขยายของ 1.0 และคุณยังหลีกเลี่ยงรอยต่อที่บางครั้งปรากฏที่จุดเชื่อมต่อการขยายด้วย
โหมด Extend ยังคงใช้ได้ใน 1.5 สำหรับการเกิน 15 วินาที แต่คุณจ่ายค่าขยายเฉพาะสำหรับฟุตเทจที่ต้องการเวลาเพิ่มจริงๆ ไม่ใช่เพราะการสร้างพื้นฐานบังคับให้ตัด
การเปลี่ยนแปลงที่ 3: ความแม่นยำของใบหน้าและความสม่ำเสมอของตัวละคร
นี่คือการเปลี่ยนแปลงที่ยากที่สุดในการวัดและถูกกล่าวถึงอย่างสม่ำเสมอในความคิดเห็นของชุมชน Grok Imagine 1.0 สามารถสร้างใบหน้าที่น่าเชื่อถือในเฟรมเปิดและสูญเสียมันไป โดยมีการเปลี่ยนแปลงลักษณะระหว่างเฟรม โดยเฉพาะอย่างยิ่งในระหว่างการหันศีรษะ การเปลี่ยนแสง หรือการเคลื่อนไหวเร็ว ตัวละครที่นำเข้าผ่านโหมด Reference จะมีสัดส่วนใบหน้าเปลี่ยนแปลงในคลิปที่ยาวขึ้น
1.5 แก้ไขปัญหานี้ในระดับสถาปัตยกรรม การสร้างเฟรมแบบลำดับของเครื่องยนต์ Aurora ซึ่งแต่ละเฟรมได้รับข้อมูลจากเฟรมก่อนหน้า ตอนนี้รักษาจุดสังเกตบนใบหน้าได้เสถียรกว่าในระหว่างการหมุนและการเปลี่ยนแสง รูปแบบความคิดเห็นจากชุมชนสอดคล้องกัน การหันศีรษะที่ก่อนหน้านี้ทำให้เกิดการบิดเบือนที่น่ากลัวตอนนี้เสร็จสิ้นอย่างสะอาดในความเร็วการเล่นปกติ
ก่อน/หลังบน Prompt เดียวในโหมด Reference: "[@Image1] เดินเข้าหากล้องผ่านตรอกที่เต็มไปด้วยหมอก ใบหน้าเห็นชัดเจน หันไปทางขวาเล็กน้อยที่ 8 วินาที แสงถนนอบอุ่นจากด้านบน"
- 1.0: ตัวแบบรักษาตัวตนที่สม่ำเสมอระหว่างการเดิน จากนั้นการหันขวาทำให้เกิดการเลื่อนความกว้างของขากรรไกรที่เห็นได้ชัดในเฟรมกลางการหัน และกลับคืนเมื่อหันเสร็จ
- 1.5: การหันเดียวกันเสร็จสิ้นโดยไม่มีรอยการแก้ไข สัดส่วนขากรรไกรและกระดูกแก้มคงอยู่ตลอดการหมุน
สิ่งนี้สำคัญที่สุดสำหรับกรณีใช้งานที่ใบหน้าของตัวละครเป็นหัวข้อหลัก ไม่ว่าจะเป็นเนื้อหาแบบ talking head การเล่าเรื่องที่ขับเคลื่อนด้วยตัวละคร การสาธิตสินค้าที่มีโฆษก และคลิปใดๆ ที่ใช้โหมด Reference เพื่อยึดตัวตนที่สม่ำเสมอในหลายช็อต
เคล็ดลับ
ความสม่ำเสมอของตัวละครสะสมเพิ่มขึ้นในโหมด Extend ใน 1.5 คลิปที่ขยายจะรักษาความเสถียรของจุดสังเกตบนใบหน้าที่กำหนดไว้ในการสร้างต้นฉบับ รอยต่อที่การขยายเชื่อมต่อกันตรวจพบได้ยากกว่าใน 1.0 เพราะทั้งสองส่วนตอนนี้ใช้ฐานเรขาคณิตใบหน้าเดียวกัน
การเปลี่ยนแปลงที่ 4: Extend from Frame — ต่อคลิปให้ยาวถึงระดับหนังสั้น
โหมด Extend ใน 1.0 เพิ่มเฟรมต่อท้ายคลิป แต่ความสามารถในการควบคุมมีจำกัด คุณส่งคลิปให้โมเดลและขอให้ต่อเนื่อง ใน 1.5 Extend from Frame เพิ่มการเลือกเฟรมอย่างชัดเจน คุณเลือกเฟรมสุดท้ายที่ต้องการต่อ และโมเดลจะดำเนินการต่อจากสถานะภาพนั้นพอดี ตำแหน่งตัวแบบเดิม ทิศทางแสงเดิม วิถีกล้องเดิม สภาพบรรยากาศเดิม
ความแตกต่างสำคัญเมื่อการสร้างให้ส่วนเปิดและกลางที่ถูกต้อง แต่เฟรมสุดท้ายเบี่ยงเบนจากเจตนาของคุณ ใน 1.0 เฟรมสุดท้ายที่ไม่สมบูรณ์แบบหมายถึงยอมรับเป็นจุดเริ่มต้นสำหรับการขยาย หรือสร้างคลิปทั้งหมดใหม่ ใน 1.5 คุณสามารถเลือกเฟรมจากช่วงก่อนหน้าในการสร้าง ช่วงที่องค์ประกอบสะอาดกว่าที่คุณต้องการต่อ แล้วขยายจากที่นั่น
ขั้นตอนการทำงานจริงสำหรับการผลิตที่ยาวกว่า:
- สร้างส่วนเปิด 15 วินาที ตรวจสอบ ระบุเฟรมปิดที่ดีที่สุด
- ใช้ Extend from Frame เลือกเฟรมนั้น สร้าง 15 วินาทีถัดไป
- ทำซ้ำจนถึงระยะเวลาที่ต้องการ
ห่วงโซ่สามส่วนที่ 15 วินาทีแต่ละส่วนให้ฟุตเทจ 45 วินาที โดยรักษาตัวละคร แสง และสถานะกล้องไว้ตลอดรอยต่อ นั่นเพียงพอสำหรับการสาธิตสินค้า โฆษณาสั้น หรือลำดับเปิดเรื่อง จากโมเดลที่เรียกเก็บเงินต่อวินาทีที่ 10–15 เครดิต
หมายเหตุ
โหมด Extend ใน OmniArt ทำงานข้ามโมเดล ไม่ใช่แค่ Grok Imagine คุณสามารถสร้างส่วนเปิดด้วยโมเดลอื่น และใช้ Extend from Frame ของ Grok Imagine 1.5 เพื่อต่อ นำการปรับปรุงความสม่ำเสมอของตัวละครไปใช้กับฟุตเทจที่มาจากที่อื่น
+52 Elo แมปกับอะไรจริงๆ
ช่องว่างของ Arena แบ่งออกเป็นการเปลี่ยนแปลงทั้งสี่นี้ ถ่วงน้ำหนักตามความถี่ที่แต่ละอย่างปรากฏในการผลิตประจำวัน:
| การเปลี่ยนแปลง | ผลกระทบต่อ Elo | รู้สึกได้ที่ไหน |
|---|---|---|
| ความเป็นธรรมชาติของเสียง | สูง | คลิปใดๆ ที่มีบทสนทนาหรือเสียงบรรยากาศหลายชั้น |
| ความยาว 15 วินาทีแบบเนทีฟ | ปานกลาง | รูปแบบโซเชียล 15 วินาที ขั้นตอนการทำงานที่ต้องพึ่ง Extend |
| ความสม่ำเสมอของใบหน้า | สูง | Talking head งานตัวละครในโหมด Reference การหันศีรษะ |
| Extend from Frame | ปานกลาง | การผลิตหลายส่วน คลิปที่ต่อเนื่องกัน |
Arena ทดสอบการแปลงภาพเป็นวิดีโอโดยเฉพาะ ภาพนิ่งที่ป้อนเข้าจะถูกทำให้เคลื่อนไหว ในบริบทนั้น ความสม่ำเสมอของใบหน้าและความเป็นธรรมชาติของเสียงคือคุณภาพสองอย่างที่ผู้ลงคะแนนแบบปิดตาสังเกตเห็นมากที่สุด ซึ่งอธิบายว่าการเพิ่ม Elo ส่วนใหญ่มาจากไหน ความยาวและ Extend from Frame สำคัญกว่าสำหรับผู้ใช้ที่มีประสบการณ์ซึ่งสร้างโปรเจกต์หลายช็อต มากกว่าผู้ลงคะแนนในการทดสอบปิดตาที่ดูคลิป 5 วินาที
ควรสร้างโปรเจกต์ 1.0 ใหม่หรือไม่
เวอร์ชันสั้น: ใช่สำหรับโปรเจกต์ที่ใบหน้าเป็นหัวข้อหลัก และใช่สำหรับสิ่งที่คุณสร้างด้วยรูปแบบสร้างแล้วขยายเพื่อให้ถึง 15 วินาที สำหรับทุกอย่างอื่น การตัดสินใจขึ้นอยู่กับโปรเจกต์
สร้างใหม่เดี๋ยวนี้ถ้า:
- คุณสร้างคลิป talking head หรือที่เน้นตัวละครใน 1.0 และสังเกตเห็นใบหน้าเลื่อนกลางคลิป ข้อมูลโหมด Reference เดิมควรให้ผลที่สะอาดกว่าอย่างเห็นได้ชัดใน 1.5
- คุณสร้างคลิป 15 วินาทีเป็น 10 วิ + 5 วิ ขยาย และพบรอยต่อ การสร้าง 15 วินาทีแบบเนทีฟของ 1.5 ขจัดจุดเชื่อมต่อ
- เสียงเป็นอุปสรรคสุดท้ายในคลิปที่ใกล้เสร็จแล้ว น้ำเสียงตามธรรมชาติและเสียงบรรยากาศหลายชั้นของ 1.5 แก้ปัญหาที่พบบ่อยที่สุดโดยไม่ต้องเปลี่ยน prompt ด้านภาพ
ไม่คุ้มที่จะสร้างใหม่ถ้า:
- คลิปเป็นแค่การเคลื่อนไหวไม่มีตัวละครหรือบทสนทนา เพดานคุณภาพภาพที่ 720p ไม่เปลี่ยน และการปรับปรุงพฤติกรรม Extend เป็นเรื่องเล็กน้อยสำหรับการส่งออกเซ็กเมนต์เดียว
- คุณใช้โหมด Modify อย่างหนัก Modify ยังคงลดขนาดอินพุตที่เกิน 854×480 โดยอัตโนมัติเป็น 480p ก่อนประมวลผล และพฤติกรรมนั้นไม่เปลี่ยนแปลงใน 1.5
- ต้นฉบับเป็นช็อต B-roll บรรยากาศสั้นๆ (ต่ำกว่า 8 วิ) ไม่มีตัวละคร การปรับปรุงเสียงบรรยากาศนั้นจริง แต่ไม่น่าจะคุ้มกับการสร้างใหม่ในราคาเครดิตปัจจุบัน
คำเตือน
ขีดจำกัดการลดขนาดเป็น 480p ของโหมด Modify ไม่เปลี่ยนแปลงใน 1.5 หากคุณต้องแก้ไขคลิป 720p โดยไม่สูญเสียความละเอียด ให้ทำขั้นตอน Modify ก่อนการสร้าง 720p ครั้งสุดท้าย ไม่ใช่หลังจากนั้น
เริ่มต้นบน OmniArt
Grok Imagine 1.5 มีให้ใช้งานในพื้นที่ทำงานวิดีโอของ OmniArt ควบคู่กับ V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 และ Seedance 2.0 ไม่ต้องสมัครสมาชิก xAI แยกต่างหาก ยอดเครดิต OmniArt เดิมครอบคลุมทุกโมเดล
วิธีเร็วที่สุดในการสอบเทียบ 1.5 คือการรัน prompt ที่คุณรู้จักดีจาก 1.0 อินพุตเดิม เอาต์พุตเคียงข้างกัน เห็นการปรับปรุงใบหน้าและเสียงได้ทันทีเมื่อเทียบกับพื้นฐาน เริ่มจากที่นั่น แล้วตัดสินใจว่าโปรเจกต์ 1.0 ใดคุ้มค่ากับการสร้างใหม่จริงๆ
สำหรับการแบ่งย่อยโหมด 6 โหมดอย่างสมบูรณ์ การคำนวณเครดิต และรูปแบบ prompt ของโหมด Reference ดูที่คู่มือ Grok Imagine สำหรับการเปรียบเทียบหลายโมเดลที่อันดับการแปลงภาพเป็นวิดีโอของ Grok Imagine อยู่ในภาพรวม 2026 ดูรายชื่อโมเดล AI แปลงภาพเป็นวิดีโอที่ดีที่สุด
พร้อมสร้างหรือยัง?
เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI