guideHướng dẫn và cách làm14 phút đọc

8 prompt cho Grok Imagine thực sự hiệu quả

Tám prompt sẵn sàng sao chép cho Grok Imagine 1.5 cho cả ảnh và video, xây dựng trên phong cách ngôn ngữ tự nhiên của FLUX.1 với cấu trúc Chủ thể + Hành động + Máy quay + Phong cách + Âm thanh. Mỗi prompt tạo ra gì và tại sao hiệu quả, bên trong OmniArt.

Đội ngũ OmniArt
8 prompt cho Grok Imagine thực sự hiệu quả

Grok Imagine 1.5 đã nâng cấp nền tảng hình ảnh lên FLUX.1 từ Black Forest Labs, và sự thay đổi đó có tác động cụ thể đến cách bạn viết prompt: mô hình phản hồi với mô tả ngôn ngữ tự nhiên theo cách một nhiếp ảnh gia đọc bản tóm tắt công việc, không phải cách các mô hình cũ phân tích danh sách từ khóa. Tám prompt dưới đây sẵn sàng để sao chép — dán chúng vào không gian làm việc Grok Imagine của OmniArt, điều chỉnh các chi tiết và tạo. Mỗi thẻ bao gồm văn bản prompt chính xác, kết quả tạo ra, và một ghi chú kỹ thuật về lý do cấu trúc hoạt động.

Để tìm hiểu lý thuyết prompt chung cho tất cả mô hình OmniArt, xem cách viết prompt tốt hơn. Để tìm hiểu sâu về sáu chế độ tạo ảnh của Grok Imagine và toán học về chi phí, xem hướng dẫn dành cho nhà sáng tạo Grok Imagine. Bài viết này đặc biệt về Grok Imagine 1.5 — phiên bản FLUX.1 — và kỹ thuật viết prompt mà nó tưởng thưởng.

Grok Imagine 1.5 đã thay đổi gì về cách viết prompt

Mô hình cơ sở FLUX.1 được huấn luyện khác với các kiến trúc text-to-image trước đó. Nó phân tích văn xuôi liên kết tốt và có xu hướng phản hồi kém với các chồng từ khóa thuần túy. Năm thói quen giúp nâng cao chất lượng đáng tin cậy nhất:

  • Ngôn ngữ tự nhiên thay vì chồng từ khóa. Câu hoàn chỉnh vượt trội hơn các tính từ phân cách bằng dấu phẩy. "Một con phố vào giờ xanh, được chiếu sáng bởi ánh đèn hiệu cửa hàng tiện lợi" tốt hơn "phố, đêm, đèn neon, điện ảnh, 4K."
  • Tham chiếu cụ thể thay vì tính từ mơ hồ. "Chụp trên Fujifilm XT4, 23mm f/2" nói với mô hình nhiều hơn "ảnh chất lượng cao." Tên thiết bị và loại phim cụ thể mang trọng lượng thực sự trong không gian tiềm ẩn.
  • Từ màu chính xác thay vì "đầy màu sắc." "Xanh điện và hồng nóng" tạo ra bảng màu có chủ đích. "Đầy màu sắc" tạo ra nhiễu trung bình.
  • Thời gian chính xác thay vì "giờ vàng." "Cuối tháng Mười, 17:45, mặt trời 6° trên đường chân trời" cho mô hình biết góc độ và độ ấm chính xác của ánh sáng. "Giờ vàng" mơ hồ theo mùa và vĩ độ.
  • Cấu trúc video: Chủ thể + Hành động + Máy quay + Phong cách + Âm thanh. Đặt chủ thể và hành động chính trong 20–30 từ đầu tiên. Một trọng tâm phong cách duy nhất tốt hơn kết hợp nhiều phong cách. Lặp lại tuần tự — thay đổi một biến mỗi lần tạo cho đến khi kết quả ổn định, sau đó tiếp tục phát triển.

Để phân tích đầy đủ về vốn từ vựng điện ảnh có thể áp dụng cho video, hướng dẫn prompt video AI theo phong cách điện ảnh đề cập sâu về lựa chọn ống kính, chuyển động máy quay có động cơ và ngôn ngữ ánh sáng.


8 prompt

1. Ảnh sản phẩm phong cách điện ảnh (ảnh)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Kết quả tạo ra: một ảnh tĩnh sạch sẽ và được chỉ đạo nghệ thuật, trông như ảnh chụp sản phẩm chuyên nghiệp thay vì output AI.

Tại sao hiệu quả: tham chiếu Fujifilm XT4 neo khoa học màu sắc và kết xuất cảm biến vào một giao diện thế giới thực cụ thể. Góc ánh sáng được chỉ định bằng số, ngăn mô hình sử dụng ánh sáng khuếch tán từ trên xuống như mặc định. Giữ bảng màu ở hai màu — điểm sáng hổ phách ấm, bóng tối xanh xám mát — ngăn mô hình đưa vào màu thứ ba cạnh tranh.


2. Cận cảnh nhân vật kèm âm thanh (video)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Kết quả tạo ra: một khoảnh khắc nhân vật với âm thanh gốc của Grok Imagine 1.5 — mô hình tạo ra lời thoại, đồng bộ môi và âm thanh môi trường trong một lần suy luận.

Tại sao hiệu quả: dòng lời thoại đủ ngắn để đồng bộ môi gọn gàng trong 8 giây. Hai nguồn ánh sáng neon riêng biệt có tên (hồng phía trên, lam ngọc từ bên phải) cho mô hình bản đồ ánh sáng rõ ràng và ngăn việc lấy trung bình "thành phố neon" chung chung. "Không phải kịch tính điện ảnh" là ràng buộc tiêu cực hướng dẫn tâm trạng chính xác hơn một tính từ tích cực.

Mẹo

Giữ lời thoại được nói trong một hoặc hai câu ngắn trong các clip dưới 10 giây. Các dòng dài hơn sẽ lấp đầy thời lượng hiện có, và mô hình có thể vội vàng trong phần phát âm hoặc cắt âm thanh sớm.


3. Môi trường không khí — clip ambient (video)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Kết quả tạo ra: clip ambient tạo tâm trạng, lý tưởng như cảnh quay nền, tư liệu chuyển tiếp, hoặc cảnh mở đầu.

Tại sao hiệu quả: "đầu tháng 11, 7 giờ sáng" chính xác hơn "buổi sáng sương mù." Push được mô tả là "hầu như không cảm nhận được" và "trôi dạt trên hơi thở," truyền đạt nhịp độ chính xác hơn "đẩy chậm về phía trước." Yêu cầu không có nhạc ngăn âm thanh sử dụng nhạc nền theo mặc định — mô hình tạo ra ambient thực sự theo phong cách thu âm thực địa.


4. Video mạng xã hội dọc nhịp nhanh — giới thiệu sản phẩm (video)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Kết quả tạo ra: clip mạng xã hội 9:16 sắc nét được xây dựng cho TikTok, Reels hoặc Shorts — giới thiệu sản phẩm cắt nhanh với âm thanh gốc.

Tại sao hiệu quả: việc chỉ định 9:16 lên đầu tiên thiết lập tỷ lệ khung hình trước bất cứ điều gì khác trong prompt. Dòng thời gian được viết rõ ràng ("0–2s / 2–8s"), giúp mô hình phân chia hai nhịp đúng cách thay vì pha trộn thành một chuyển động. Đặt tên cho các sự kiện âm thanh cụ thể (âm thanh va đập, tông synthesizer) tạo ra thiết kế âm thanh có chủ đích hơn "thêm hiệu ứng âm thanh."

Cảnh báo

Clip Grok Imagine 1.5 dài tối đa 15 giây. Cho nội dung mạng xã hội hãy giữ clip tối đa 8–10 giây — chuyển động của mô hình sạch nhất trong phạm vi đó, và cửa sổ chú ý của nền tảng mạng xã hội ngắn. Ở 720p, clip 8 giây tốn 120 tín dụng trên OmniArt.


5. Minh họa theo phong cách (ảnh)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Kết quả tạo ra: minh họa đồ họa màu hạn chế trông như một quy trình in thực sự thay vì nghệ thuật kỹ thuật số chung chung.

Tại sao hiệu quả: đặt tên kỹ thuật in (Risograph) và các ràng buộc cụ thể của nó (hai màu mực, hình phẳng, không có độ dốc màu, lệch đăng ký mực) cung cấp cho mô hình một bản tóm tắt kỹ thuật hoàn chỉnh. "Lệch đăng ký mực" là loại chi tiết quy trình vật lý neo đầu ra vào tính thẩm mỹ thực tế — đây là tương đương FLUX.1 với việc đặt tên loại phim. Không có nó, mô hình có xu hướng thêm độ dốc màu hoặc trộn màu.


6. Chuyển động máy quay động — pull-back drone (video)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Kết quả tạo ra: cảnh quay tiết lộ kéo dài 15 giây — độ dài clip tối đa của mô hình — được xây dựng xung quanh một chuyển động máy quay có động cơ duy nhất.

Tại sao hiệu quả: prompt này sử dụng toàn bộ 15 giây cho một chuyển động liên tục duy nhất, đây là cách đáng tin cậy nhất để có kết quả sạch ở độ dài đó. Pull-back bị giới hạn ở độ cao không đổi (không nghiêng), ngăn mô hình ứng biến trục máy quay thứ hai và tạo chuyển động giật cục. "Màu sắc kiểu LOG, vignette ống kính nhẹ" mã hóa giao diện máy quay thực sự mà không cần tên thiết bị cụ thể.


7. Thời trang theo phong cách — chân dung phim (ảnh)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Kết quả tạo ra: chân dung nhiếp ảnh phim với kết xuất màu cổ điển chính xác — hạt phim xác thực, halation và dịch chuyển màu của phim hết hạn.

Tại sao hiệu quả: "Kodak Portra 400 hết hạn" là một trong những tham chiếu phong cách một cụm từ mạnh nhất trong không gian tiềm ẩn của hình ảnh — nó mang theo một bộ kỳ vọng màu sắc hoàn chỉnh. Chỉ định dịch chuyển màu ("màu xanh lá dịch chuyển nhẹ về phía vàng-olive") ngăn hạt phim cổ điển chung chung và hướng dẫn sự hỏng hóc bảng màu chính xác liên quan đến phim hết hạn. Cắt chặt và tỷ lệ khung hình cụ thể (4:5) tạo ra chân dung trông như bản in ảnh thực sự.


8. Môi trường đắm chìm — mưa (video)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Kết quả tạo ra: clip môi trường đắm chìm từ góc nhìn thứ nhất — mạnh mẽ như cảnh quay mở đầu hoặc như tác phẩm tâm trạng độc lập.

Tại sao hiệu quả: "cuối tháng 6, 22:00" xác định mùa chính xác, cảm giác nhiệt độ (mưa hè ẩm ướt) và mức độ tối. Người đi xe đạp được đặt như một sự kiện cụ thể tại một thời điểm cụ thể ("khoảng 2 giây giữa clip"), cung cấp cho mô hình điểm neo tường thuật mà không cần hành động nhân vật phức tạp. Âm thanh được cung cấp trong ba lớp riêng biệt (mưa trên kính, tiếng lốp xe xa, xe máy), có xu hướng tạo ra thiết kế âm thanh được cân nhắc kỹ hơn so với một hướng dẫn "âm thanh mưa thành phố" duy nhất.


Chạy trên OmniArt

Tất cả tám prompt chạy trên Grok Imagine 1.5 trong không gian sáng tạo của OmniArt — không cần đăng ký xAI riêng. Các prompt ảnh (1, 5, 7) vào không gian làm việc ảnh; các prompt video (2, 3, 4, 6, 8) vào không gian làm việc video dưới Grok Imagine.

Một số ghi chú thực tế cho các lần chạy trên OmniArt:

  • Bắt đầu ở 480p để lặp lại. Ở 480p, video tốn 10 tín dụng mỗi giây. Khi cấu trúc đúng rồi, chuyển lên 720p (15 tín dụng mỗi giây) cho lần quay cuối cùng.
  • Sử dụng Chế độ Mở rộng để kéo dài. Clip ambient (prompt 3) và pull-back drone (prompt 6) có thể được mở rộng thêm tối đa 15 giây bằng cách sử dụng Chế độ Mở rộng của Grok Imagine — cùng một mô hình, chỉ tính phí phần được thêm vào.
  • Sử dụng Chế độ Sửa đổi để sửa có mục tiêu. Nếu ánh sáng trong kết quả gần đúng nhưng một yếu tố sai lệch, Chế độ Sửa đổi cho phép bạn mô tả sự thay đổi bằng văn bản mà không cần tái tạo toàn bộ clip. Giữ clip nguồn ở 480p trước khi chuyển sang Sửa đổi — chế độ này giới hạn đầu vào ở 854×480.
  • Nhất quán nhân vật qua các cảnh quay: nếu bạn đang tạo nhiều cảnh quay của cùng một nhân vật (theo phong cách prompt 2), sử dụng Chế độ Tham chiếu với ảnh chân dung là @Image1 và mô tả lại nhân vật trong mỗi prompt mới. Chế độ Tham chiếu của Grok Imagine 1.5 là con đường trực tiếp nhất đến sự nhất quán mà không cần dựa vào mô hình đã tinh chỉnh.

Để phân tích đầy đủ tất cả sáu chế độ tạo ảnh của Grok Imagine, các kịch bản chi phí và khi nào nên chuyển sang mô hình khác, xem hướng dẫn Grok Imagine đầy đủ. Để có vốn từ vựng điện ảnh rộng hơn có thể áp dụng cho bất kỳ prompt video nào, hướng dẫn prompt video AI theo phong cách điện ảnh đáng được đánh dấu bên cạnh bài này.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí