Grok Imagine: hướng dẫn model video xAI cho creator 2026
Hướng dẫn Grok Imagine — sáu chế độ generate, pattern prompt, chi phí credit thực tế, khi nào chọn thay V6 hoặc Sora 2.

Grok Imagine là model sinh video và âm thanh của xAI (tháng 1/2026), dùng trên OmniArt không cần subscription xAI riêng. Khác chatbot Grok — cùng tên, khác sản phẩm. Bài này: Grok Imagine cho việc gì, sáu mode quan trọng, pattern prompt theo mode, và toán chi phí project thật bằng credit.
Grok Imagine là gì
Video tới 720p, audio gốc, clip 1–15 giây. Không đánh Sora 2/V6 về fidelity thuần — mạnh ở bề mặt workflow: sáu mode một weight set, generate/extend/restyle/modify không rời model.
| Spec | Giá trị |
|---|---|
| Độ phân giải tối đa | 720p (1080p+ dùng V6) |
| Thời lượng tối đa | 15s / lần |
| Tỷ lệ | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Audio | Gốc, sinh cùng video |
| Chi phí 480p | 10 credits/giây |
| Chi phí 720p | 15 credits/giây |
Sáu mode cần biết
Text-to-Video
Mặc định. Concept, mood board, nháp social chưa có ảnh reference.
Image-to-Video
Khóa frame đầu theo ảnh — animate still, ảnh sản phẩm, mockup.
Reference Mode — khác biệt chính
1–7 ảnh neo trực quan không khóa frame đầu. Tag @Image1, @Image2… Giữa image-to-video (khóa frame) và text-to-video (không reference) — đường sạch nhất cho nhất quán nhân vật nhiều shot.
15 credits/giây @ 480p; 22,5 @ 720p.
Extend Mode
Thêm 2–10s vào clip MP4 2–15s. Chỉ tính phần append. Hoạt động với video từ model khác trong workspace OmniArt.
Modify Mode
Sửa clip — đổi nền, ánh sáng, màu vật thể, thời tiết. Input tối đa 8s, auto scale 854×480 — nguồn HD mất chi tiết. Nên generate 480p nếu sẽ Modify.
Editing Suite
Restyle (Cyberpunk, Anime…), Object Manipulation, Sketches to Life, Add Performance — biến thể từ một nguồn.
Prompt tôn trọng model
Ngôn ngữ điện ảnh
Preset: Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse — kích hoạt tốt hơn với thuật ngữ cinematography.
| Yếu | Mạnh |
|---|---|
| Phố đêm neon, người đi bộ | Dolly qua hẻm Tokyo ướt, neon phản chiếu vũng nước, DOF nông, nhân vật ô từ phải, khung 2.39:1 |
Tag reference rõ
"@Image1 (xe thể thao đỏ) drift quanh cua núi, @Image3 (bầu trời hoàng hôn) phía sau, @Image2 (tài xế) nắm vô lăng."
Đưa hành động lên trước
Model render tuần tự — cao trào cuối clip 5s có thể không kịp.
Timeline cho clip 10–15s
"Zoom chậm vào thư viện bỏ hoang (0–5s), bụi trong tia sáng (5–10s), sách rơi (10–12s), trang bay (12–15s)."
Chi phí thực tế
TikTok sản phẩm 15s
| Bước | Mode | Chi phí |
|---|---|---|
| Generate 10s 480p | T2V | 100 |
| Extend 5s | Extend | 75 |
| Tổng (một revision) | 175–275 |
Storyboard 3 shot
| Bước | Chi phí |
|---|---|
| 3× Reference 720p 8s/6s | 495 |
| Modify shot 2 | 180 |
| Tổng | 675 |
Khi chọn model khác
| Nhu cầu | Chọn |
|---|---|
| 1080p+ | V6, BACH, Veo 3 |
| Lens parameterized | V6 |
| 16–20s một pass | Sora 2 |
| Dialogue/music production | Audio riêng + edit |
| Giữ resolution khi edit | Tránh Modify trên HD |
Pattern ship
Pattern 1 — generate nơi khác, refine ở đây. Master V6/Sora 2 HD, Extend/Restyle/Modify trên Grok rẻ hơn.
Pattern 2 — Reference Mode khóa nhân vật. @Image1 cố định qua năm shot campaign.
Warning
Modify auto scale input >854×480 xuống 480p. Edit 1080p trước upscale hoặc dùng tool khác.
Bắt đầu trên OmniArt
Grok Imagine cạnh V6, BACH, Sora 2, Veo 3, Kling, HappyHorse, Seedance — một số dư credit. Bắt Text-to-Video học preset camera, lên Reference Mode khi có nhân vật/sản phẩm neo.
Xem BACH cho narrative HD hoặc ảnh sang video 2026.