Grok Imagine: คู่มือครีเอเตอร์สำหรับโมเดลวิดีโอ xAI ปี 2026
คู่มือปฏิบัติ Grok Imagine — หกโหมด generation แพทเทิร์น prompt คณิตศาสตร์ต้นทุนจริง และเมื่อไหร่เลือกแทน V6 หรือ Sora 2 ในปี 2026

Grok Imagine เป็นโมเดล generation วิดีโอและเสียงของ xAI เปิดตัวมกราคม 2026 และเข้าถึงได้ผ่าน OmniArt โดยไม่ต้อง subscription xAI แยก เป็นคนละผลิตภัณฑ์กับ Grok chatbot — แชร์ชื่อเท่านั้น คู่มือนี้ครอบคลุม Grok Imagine สร้างมาเพื่ออะไร หกโหมด generation ที่สำคัญ แพทเทิร์น prompt ที่เคารพแต่ละโหมด และ math ว่าโปรเจกต์จริงกิน credits เท่าไหร่
Grok Imagine คืออะไร
Grok Imagine generate วิดีโอสูงสุด 720p พร้อมเสียง native ในคลิป 1–15 วินาที headline trick ไม่ใช่ resolution — ที่ 720p ตั้งใจไม่แข่ง Sora 2 หรือ V6 ด้าน fidelity ดิบ headline trick คือ workflow surface รอบโมเดล: หกโหมด generation แชร์ weight set เดียว ให้ generate extend restyle และ modify โดยไม่ออกจากโมเดล
| สเปก | ค่า |
|---|---|
| ความละเอียดสูงสุด | 720p (ใช้ V6 สำหรับ 1080p+) |
| ความยาวสูงสุด | 15 วินาทีต่อ generation |
| อัตราส่วนภาพ | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| เสียง | Native สร้างคู่กับวิดีโอ |
| ต้นทุน (480p) | 10 credits ต่อวินาที |
| ต้นทุน (720p) | 15 credits ต่อวินาที |
หกโหมดที่ควรรู้
แต่ละโหมดคือวิธีบอกโมเดลว่ากำลังทำงานกับ input แบบไหน เลือกโหมดถูกคือส่วนใหญ่ของ prompt engineering
Text-to-Video
ค่าเริ่มต้น เขียน prompt ได้คลิป เหมาะ concept exploration mood board และ draft โซเชียลที่ยังไม่มี reference image ต้นทุน 10–15 credits ต่อวินาทีตาม resolution
Image-to-Video
animate still โดย preserve composition input เฟรมแรก lock กับภาพ ใช้ animate illustration product photography และ design mockup ที่เฟรมต้นทาง non-negotiable
Reference Mode — จุดต่าง
Reference Mode รับ 1–7 ภาพเป็น visual anchor โดยไม่ lock เฟรมแรก tag ภาพด้วย @Image1, @Image2, @Image3 และอ้างใน prompt นี่คือสิ่งที่ video model ส่วนใหญ่ไม่มี — ส่วนใหญ่ lock เฟรมแรก (image-to-video) หรือไม่รับ reference (text-to-video) Reference Mode อยู่กลาง และเป็นเส้นทางสะอาดที่สุดสู่ character consistency ข้ามหลายช็อต
ต้นทุน 15 credits ต่อวินาทีที่ 480p 22.5 ที่ 720p
Extend Mode
ต่อ 2–10 วินาทีให้คลิปที่มี input เป็น MP4 2–15 วินาที output เป็นคลิปต่อเนื่องเดียว billing เฉพาะส่วนที่ต่อ cross-model trick: Extend Mode ใช้กับวิดีโอจากโมเดลใดใน workspace วิดีโอ OmniArt ไม่ใช่แค่ Grok
Modify Mode
แก้คลิปที่มีโดยไม่ regenerate — สลับพื้นหลัง เปลี่ยนแสง shift สีวัตถุเฉพาะ เอฟเฟกต์ weather input cap 8 วินาทีและ auto-scale เป็น 854×480 แปลว่า source ความละเอียดสูงเสีย detail ในรอบ trip ใช้ Modify กับคลิปที่ generate ที่ 480p อยู่แล้ว
Editing Suite — Restyle, Object Manipulation, Sketches to Life
ชุด post-generation Restyle ใส่สไตล์ศิลปะ (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic) Object Manipulation เพิ่ม ลบ หรือสลับองค์ประกอบ Sketches to Life animate line drawing Add Performance ใส่ animation ตัวละครบนตัว static มีประโยชน์สร้าง variation หลายแบบจากคลิปเดียว
Prompt ที่เคารพโมเดล
สี่นิสยกคุณภาพเร็วกว่า prompt ยาว
ใช้ภาษากล้อง
Grok Imagine มี camera preset ในตัวหกแบบ: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse ทำงานแม่นขึ้นเมื่อ prompt ใช้ศัพท์ cinematography
| อ่อนกว่า | แข็งแรงกว่า |
|---|---|
| "ถนนในเมืองกลางคืน ป้ายนีออน คนเดิน" | "Dolly ไปข้างหน้าในซอยโตเกียวเปียกฝน ป้ายนีออนสะท้อนในแอ่งน้ำ depth of field ตื้น คนถือร่มเข้าเฟรมขวา framing cinematic 2.39:1" |
Tag reference ชัดเจน
Reference Mode เสื่อมเมื่อ prompt generic ผูก reference แต่ละตัวกับบทบาท
"@Image1 (รถสปอร์ตแดง) drift มุมภูเขา พื้นหลัง @Image3 (ท้องฟ้าพระอาทิตย์ตก) ขณะ @Image2 (ตัวละครคนขับ) จับพวงมาลัย"
วาง action ไว้หน้า
Generation วิ่งตามลำดับความยาว ถ้า climax อยู่ท้ายคลิป 5 วินาที โมเดลอาจไม่จบ ย้าย action มาข้างหน้า
| อ่อนกว่า | แข็งแรงกว่า |
|---|---|
| "ป่าเงียบ มีนก แล้วกวางกระโดดข้ามลำธาร" | "กวางกระโดดข้ามลำธารในป่า แสง golden hour กล้อง track วิถี นกกระจายจากกิ่งใกล้ๆ" |
จังหวะคลิป 10–15 วินาทีบน timeline
คลิปยาว เขียน timing ลง prompt
"Zoom ช้าเข้าห้องสมุดร้าง (0–5s) ฝุ่นลอยจับลำแสง (5–10s) หนังสือตกจากชั้น (10–12s) หน้ากระดาษพลิ้ว (12–15s)"
ต้นทุนจริง
สามสenario ช็อตจริง ราคาเป็น credits OmniArt
วิดีโอสินค้า TikTok 15 วินาที
| ขั้น | โหมด | ความละเอียด | ต้นทุน |
|---|---|---|---|
| Generation เริ่มต้น | Text-to-Video | 480p, 10s | 100 |
| Extend | Extend | 480p, 5s | 75 |
| รวม (revision หนึ่งครั้ง) | 175–275 |
Storyboard แบรนด์ 3 ช็อต
| ขั้น | โหมด | ความละเอียด | ต้นทุน |
|---|---|---|---|
| ช็อต 1 พร้อม ref 2 | Reference, 8s | 720p | 180 |
| ช็อต 2 ref เดิม | Reference, 8s | 720p | 180 |
| ช็อต 3 ref เดิม | Reference, 6s | 720p | 135 |
| แก้แสงช็อต 2 | Modify, 8s | 720p | 180 |
| รวม | 675 |
รอบ restyle
| ขั้น | โหมด | ความละเอียด | ต้นทุน |
|---|---|---|---|
| Restyle เป็น Anime | Restyle, 8s | 480p | 120 |
เมื่อไหร่เลือกโมเดลอื่น
Grok Imagine เหมาะ short-form social sketch-to-life และ multi-shot ขับด้วย reference ที่ 480p–720p ไม่เหมาะเมื่อ:
| ความต้องการ | ทางเลือกดีกว่า |
|---|---|
| 1080p ขึ้นไป | V6, BACH, Veo 3 |
| lens control ขั้นสูง (focal length, DOF, aberration) | V6 |
| คลิป 16–20 วินาทีครั้งเดียว | Sora 2 |
| dialogue และ music ระดับ production | โมเดลเสียงเฉพาะ + edit |
| preserve source ความละเอียดสูงใน edit | หลีก Modify Mode |
แพทเทิร์น workflow ที่ส่งงาน
Grok Imagine คุ้มบน OmniArt ไม่ใช่ standalone generator — เป็น iteration layer สองแพทเทิร์นได้มากที่สุด
แพทเทิร์น 1 — generate ที่อื่น refine ที่นี่ render master clip ด้วย V6 หรือ Sora 2 ความละเอียดสูง แล้วใช้ Extend Restyle และ Modify สปิน variation และ addition ใน Grok ต้นทุนต่ำกว่า
แพทเทิร์น 2 — Reference Mode สำหรับ character lock แคมเปญแบรนด์ต้องตัวละครเดียวกันห้าช็อต lock identity ด้วย anchor image ใน @Image1 แล้ว generate แต่ละช็อตด้วย reference เดียวใน Reference Mode ถูกกว่า re-roll Sora 2 ทุกช็อต
Warning
Modify Mode auto-scale input ใดๆ เหนือ 854×480 ลง 480p ก่อนประมวลผล ถ้าต้อง edit คลิป 1080p โดยไม่เสีย resolution render edit ที่อื่นหรือ edit ก่อนขั้น upscale
เริ่มต้นบน OmniArt
Grok Imagine อยู่ใน workspace วิดีโอ OmniArt ข้าง V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 และ Seedance 2.0 ยอดเครดิตเดียว อัปโหลด reference เดียว grammar prompt เดียว เริ่ม Text-to-Video เรียน camera preset แล้วไป Reference Mode เมื่อมีตัวละครหรือสินค้าให้ lock
จับคู่คู่มือนี้กับ breakdown cinematographer BACH สำหรับ narrative fidelity สูงขึ้น หรือ shortlist image-to-video ที่ดีที่สุด ถ้าเลือกโมเดลสำหรับช็อตเฉพาะ