guideโมเดลและข้อมูลเชิงลึกอ่าน 5 นาที

Grok Imagine: คู่มือครีเอเตอร์สำหรับโมเดลวิดีโอ xAI ปี 2026

คู่มือปฏิบัติ Grok Imagine — หกโหมด generation แพทเทิร์น prompt คณิตศาสตร์ต้นทุนจริง และเมื่อไหร่เลือกแทน V6 หรือ Sora 2 ในปี 2026

ทีม OmniArt5 พ.ค. 2569

Grok Imagine เป็นโมเดล generation วิดีโอและเสียงของ xAI เปิดตัวมกราคม 2026 และเข้าถึงได้ผ่าน OmniArt โดยไม่ต้อง subscription xAI แยก เป็นคนละผลิตภัณฑ์กับ Grok chatbot — แชร์ชื่อเท่านั้น คู่มือนี้ครอบคลุม Grok Imagine สร้างมาเพื่ออะไร หกโหมด generation ที่สำคัญ แพทเทิร์น prompt ที่เคารพแต่ละโหมด และ math ว่าโปรเจกต์จริงกิน credits เท่าไหร่

Grok Imagine คืออะไร

Grok Imagine generate วิดีโอสูงสุด 720p พร้อมเสียง native ในคลิป 1–15 วินาที headline trick ไม่ใช่ resolution — ที่ 720p ตั้งใจไม่แข่ง Sora 2 หรือ V6 ด้าน fidelity ดิบ headline trick คือ workflow surface รอบโมเดล: หกโหมด generation แชร์ weight set เดียว ให้ generate extend restyle และ modify โดยไม่ออกจากโมเดล

สเปก	ค่า
ความละเอียดสูงสุด	720p (ใช้ V6 สำหรับ 1080p+)
ความยาวสูงสุด	15 วินาทีต่อ generation
อัตราส่วนภาพ	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
เสียง	Native สร้างคู่กับวิดีโอ
ต้นทุน (480p)	10 credits ต่อวินาที
ต้นทุน (720p)	15 credits ต่อวินาที

หกโหมดที่ควรรู้

แต่ละโหมดคือวิธีบอกโมเดลว่ากำลังทำงานกับ input แบบไหน เลือกโหมดถูกคือส่วนใหญ่ของ prompt engineering

Text-to-Video

ค่าเริ่มต้น เขียน prompt ได้คลิป เหมาะ concept exploration mood board และ draft โซเชียลที่ยังไม่มี reference image ต้นทุน 10–15 credits ต่อวินาทีตาม resolution

Image-to-Video

animate still โดย preserve composition input เฟรมแรก lock กับภาพ ใช้ animate illustration product photography และ design mockup ที่เฟรมต้นทาง non-negotiable

Reference Mode — จุดต่าง

Reference Mode รับ 1–7 ภาพเป็น visual anchor โดยไม่ lock เฟรมแรก tag ภาพด้วย @Image1, @Image2, @Image3 และอ้างใน prompt นี่คือสิ่งที่ video model ส่วนใหญ่ไม่มี — ส่วนใหญ่ lock เฟรมแรก (image-to-video) หรือไม่รับ reference (text-to-video) Reference Mode อยู่กลาง และเป็นเส้นทางสะอาดที่สุดสู่ character consistency ข้ามหลายช็อต

ต้นทุน 15 credits ต่อวินาทีที่ 480p 22.5 ที่ 720p

Extend Mode

ต่อ 2–10 วินาทีให้คลิปที่มี input เป็น MP4 2–15 วินาที output เป็นคลิปต่อเนื่องเดียว billing เฉพาะส่วนที่ต่อ cross-model trick: Extend Mode ใช้กับวิดีโอจากโมเดลใดใน workspace วิดีโอ OmniArt ไม่ใช่แค่ Grok

Modify Mode

แก้คลิปที่มีโดยไม่ regenerate — สลับพื้นหลัง เปลี่ยนแสง shift สีวัตถุเฉพาะ เอฟเฟกต์ weather input cap 8 วินาทีและ auto-scale เป็น 854×480 แปลว่า source ความละเอียดสูงเสีย detail ในรอบ trip ใช้ Modify กับคลิปที่ generate ที่ 480p อยู่แล้ว

Editing Suite — Restyle, Object Manipulation, Sketches to Life

ชุด post-generation Restyle ใส่สไตล์ศิลปะ (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic) Object Manipulation เพิ่ม ลบ หรือสลับองค์ประกอบ Sketches to Life animate line drawing Add Performance ใส่ animation ตัวละครบนตัว static มีประโยชน์สร้าง variation หลายแบบจากคลิปเดียว

Prompt ที่เคารพโมเดล

สี่นิสยกคุณภาพเร็วกว่า prompt ยาว

ใช้ภาษากล้อง

Grok Imagine มี camera preset ในตัวหกแบบ: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse ทำงานแม่นขึ้นเมื่อ prompt ใช้ศัพท์ cinematography

อ่อนกว่า	แข็งแรงกว่า
"ถนนในเมืองกลางคืน ป้ายนีออน คนเดิน"	"Dolly ไปข้างหน้าในซอยโตเกียวเปียกฝน ป้ายนีออนสะท้อนในแอ่งน้ำ depth of field ตื้น คนถือร่มเข้าเฟรมขวา framing cinematic 2.39:1"

Tag reference ชัดเจน

Reference Mode เสื่อมเมื่อ prompt generic ผูก reference แต่ละตัวกับบทบาท

"@Image1 (รถสปอร์ตแดง) drift มุมภูเขา พื้นหลัง @Image3 (ท้องฟ้าพระอาทิตย์ตก) ขณะ @Image2 (ตัวละครคนขับ) จับพวงมาลัย"

วาง action ไว้หน้า

Generation วิ่งตามลำดับความยาว ถ้า climax อยู่ท้ายคลิป 5 วินาที โมเดลอาจไม่จบ ย้าย action มาข้างหน้า

อ่อนกว่า	แข็งแรงกว่า
"ป่าเงียบ มีนก แล้วกวางกระโดดข้ามลำธาร"	"กวางกระโดดข้ามลำธารในป่า แสง golden hour กล้อง track วิถี นกกระจายจากกิ่งใกล้ๆ"

จังหวะคลิป 10–15 วินาทีบน timeline

คลิปยาว เขียน timing ลง prompt

"Zoom ช้าเข้าห้องสมุดร้าง (0–5s) ฝุ่นลอยจับลำแสง (5–10s) หนังสือตกจากชั้น (10–12s) หน้ากระดาษพลิ้ว (12–15s)"

ต้นทุนจริง

สามสenario ช็อตจริง ราคาเป็น credits OmniArt

วิดีโอสินค้า TikTok 15 วินาที

ขั้น	โหมด	ความละเอียด	ต้นทุน
Generation เริ่มต้น	Text-to-Video	480p, 10s	100
Extend	Extend	480p, 5s	75
รวม (revision หนึ่งครั้ง)			175–275

Storyboard แบรนด์ 3 ช็อต

ขั้น	โหมด	ความละเอียด	ต้นทุน
ช็อต 1 พร้อม ref 2	Reference, 8s	720p	180
ช็อต 2 ref เดิม	Reference, 8s	720p	180
ช็อต 3 ref เดิม	Reference, 6s	720p	135
แก้แสงช็อต 2	Modify, 8s	720p	180
รวม			675

รอบ restyle

ขั้น	โหมด	ความละเอียด	ต้นทุน
Restyle เป็น Anime	Restyle, 8s	480p	120

เมื่อไหร่เลือกโมเดลอื่น

Grok Imagine เหมาะ short-form social sketch-to-life และ multi-shot ขับด้วย reference ที่ 480p–720p ไม่เหมาะเมื่อ:

ความต้องการ	ทางเลือกดีกว่า
1080p ขึ้นไป	V6, BACH, Veo 3
lens control ขั้นสูง (focal length, DOF, aberration)	V6
คลิป 16–20 วินาทีครั้งเดียว	Sora 2
dialogue และ music ระดับ production	โมเดลเสียงเฉพาะ + edit
preserve source ความละเอียดสูงใน edit	หลีก Modify Mode

แพทเทิร์น workflow ที่ส่งงาน

Grok Imagine คุ้มบน OmniArt ไม่ใช่ standalone generator — เป็น iteration layer สองแพทเทิร์นได้มากที่สุด

แพทเทิร์น 1 — generate ที่อื่น refine ที่นี่ render master clip ด้วย V6 หรือ Sora 2 ความละเอียดสูง แล้วใช้ Extend Restyle และ Modify สปิน variation และ addition ใน Grok ต้นทุนต่ำกว่า

แพทเทิร์น 2 — Reference Mode สำหรับ character lock แคมเปญแบรนด์ต้องตัวละครเดียวกันห้าช็อต lock identity ด้วย anchor image ใน @Image1 แล้ว generate แต่ละช็อตด้วย reference เดียวใน Reference Mode ถูกกว่า re-roll Sora 2 ทุกช็อต

คำเตือน

Modify Mode auto-scale input ใดๆ เหนือ 854×480 ลง 480p ก่อนประมวลผล ถ้าต้อง edit คลิป 1080p โดยไม่เสีย resolution render edit ที่อื่นหรือ edit ก่อนขั้น upscale

เริ่มต้นบน OmniArt

Grok Imagine อยู่ใน workspace วิดีโอ OmniArt ข้าง V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 และ Seedance 2.0 ยอดเครดิตเดียว อัปโหลด reference เดียว grammar prompt เดียว เริ่ม Text-to-Video เรียน camera preset แล้วไป Reference Mode เมื่อมีตัวละครหรือสินค้าให้ lock

จับคู่คู่มือนี้กับ breakdown cinematographer BACH สำหรับ narrative fidelity สูงขึ้น หรือ shortlist image-to-video ที่ดีที่สุด ถ้าเลือกโมเดลสำหรับช็อตเฉพาะ

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี