guideHướng dẫn và cách làm4 phút đọc

Grok Imagine: hướng dẫn model video xAI cho creator 2026

Hướng dẫn Grok Imagine — sáu chế độ generate, pattern prompt, chi phí credit thực tế, khi nào chọn thay V6 hoặc Sora 2.

Đội ngũ OmniArt5 thg 5, 2026

Grok Imagine là model sinh video và âm thanh của xAI (tháng 1/2026), dùng trên OmniArt không cần subscription xAI riêng. Khác chatbot Grok — cùng tên, khác sản phẩm. Bài này: Grok Imagine cho việc gì, sáu mode quan trọng, pattern prompt theo mode, và toán chi phí project thật bằng credit.

Grok Imagine là gì

Video tới 720p, audio gốc, clip 1–15 giây. Không đánh Sora 2/V6 về fidelity thuần — mạnh ở bề mặt workflow: sáu mode một weight set, generate/extend/restyle/modify không rời model.

Spec	Giá trị
Độ phân giải tối đa	720p (1080p+ dùng V6)
Thời lượng tối đa	15s / lần
Tỷ lệ	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Gốc, sinh cùng video
Chi phí 480p	10 credits/giây
Chi phí 720p	15 credits/giây

Sáu mode cần biết

Text-to-Video

Mặc định. Concept, mood board, nháp social chưa có ảnh reference.

Image-to-Video

Khóa frame đầu theo ảnh — animate still, ảnh sản phẩm, mockup.

Reference Mode — khác biệt chính

1–7 ảnh neo trực quan không khóa frame đầu. Tag @Image1, @Image2… Giữa image-to-video (khóa frame) và text-to-video (không reference) — đường sạch nhất cho nhất quán nhân vật nhiều shot.

15 credits/giây @ 480p; 22,5 @ 720p.

Extend Mode

Thêm 2–10s vào clip MP4 2–15s. Chỉ tính phần append. Hoạt động với video từ model khác trong workspace OmniArt.

Modify Mode

Sửa clip — đổi nền, ánh sáng, màu vật thể, thời tiết. Input tối đa 8s, auto scale 854×480 — nguồn HD mất chi tiết. Nên generate 480p nếu sẽ Modify.

Editing Suite

Restyle (Cyberpunk, Anime…), Object Manipulation, Sketches to Life, Add Performance — biến thể từ một nguồn.

Prompt tôn trọng model

Ngôn ngữ điện ảnh

Preset: Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse — kích hoạt tốt hơn với thuật ngữ cinematography.

Yếu	Mạnh
Phố đêm neon, người đi bộ	Dolly qua hẻm Tokyo ướt, neon phản chiếu vũng nước, DOF nông, nhân vật ô từ phải, khung 2.39:1

Tag reference rõ

"@Image1 (xe thể thao đỏ) drift quanh cua núi, @Image3 (bầu trời hoàng hôn) phía sau, @Image2 (tài xế) nắm vô lăng."

Đưa hành động lên trước

Model render tuần tự — cao trào cuối clip 5s có thể không kịp.

Timeline cho clip 10–15s

"Zoom chậm vào thư viện bỏ hoang (0–5s), bụi trong tia sáng (5–10s), sách rơi (10–12s), trang bay (12–15s)."

Chi phí thực tế

TikTok sản phẩm 15s

Bước	Mode	Chi phí
Generate 10s 480p	T2V	100
Extend 5s	Extend	75
Tổng (một revision)		175–275

Storyboard 3 shot

Bước	Chi phí
3× Reference 720p 8s/6s	495
Modify shot 2	180
Tổng	675

Khi chọn model khác

Nhu cầu	Chọn
1080p+	V6, BACH, Veo 3
Lens parameterized	V6
16–20s một pass	Sora 2
Dialogue/music production	Audio riêng + edit
Giữ resolution khi edit	Tránh Modify trên HD

Pattern ship

Pattern 1 — generate nơi khác, refine ở đây. Master V6/Sora 2 HD, Extend/Restyle/Modify trên Grok rẻ hơn.

Pattern 2 — Reference Mode khóa nhân vật. @Image1 cố định qua năm shot campaign.

Cảnh báo

Modify auto scale input >854×480 xuống 480p. Edit 1080p trước upscale hoặc dùng tool khác.

Bắt đầu trên OmniArt

Grok Imagine cạnh V6, BACH, Sora 2, Veo 3, Kling, HappyHorse, Seedance — một số dư credit. Bắt Text-to-Video học preset camera, lên Reference Mode khi có nhân vật/sản phẩm neo.

Xem BACH cho narrative HD hoặc ảnh sang video 2026.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí