guideHướng dẫn và cách làm11 phút đọc

Hướng dẫn toàn diện về prompt và kỹ thuật điện ảnh với Veo 3.1

Cách viết prompt cho Veo 3.1 để đạt kết quả broadcast-grade: 4K native, âm thanh không gian và độ trung thực cao với frame đầu tiên — kèm công thức 5 phần tái sử dụng và ví dụ so sánh trước/sau trực tiếp trên OmniArt.

Đội ngũ OmniArt
Hướng dẫn toàn diện về prompt và kỹ thuật điện ảnh với Veo 3.1

Veo 3.1 là model video broadcast-grade của OmniArt — lựa chọn hàng đầu khi bạn cần đầu ra đạt chuẩn trên màn hình lớn. Model hỗ trợ 4K native, âm thanh không gian được tạo đồng thời với các frame video, và độ bám sát frame đầu tiên đặc biệt mạnh khi bạn cung cấp ảnh tham chiếu. Nhưng tất cả điều này không có giá trị nếu prompt mơ hồ. Hướng dẫn này cung cấp công thức 5 phần có thể tái sử dụng để điều khiển Veo 3.1 đúng cách nó muốn được hướng dẫn, kèm theo ví dụ so sánh trước/sau, bảng từ vựng điện ảnh, và cách chọn tier phù hợp (standard, fast hoặc lite) cho từng công việc.

Công thức prompt 5 phần cho Veo 3.1

Veo 3.1 phản hồi tốt với các prompt có cấu trúc trả lời lần lượt năm câu hỏi. Bỏ sót một câu, model sẽ tự điền vào khoảng trống — thường theo cách chung chung nhất có thể.

  1. Chủ thể và hành động — ai hoặc cái gì, đang làm gì, ở đâu. "Một đạo diễn phim đang xem lại cảnh quay một mình trong phòng dựng phim tối."
  2. Máy quay (chuyển động, ống kính, bố cục) — kích thước cảnh quay, tiêu cự, chuyển động và tốc độ. "Push-in chậm, 50mm, medium close-up, máy cố định rồi từ từ trượt về phía trước."
  3. Ánh sáng và cảm xúc — nguồn, hướng, chất lượng, bảng màu. "Ánh sáng từ một màn hình duy nhất làm key light, bóng tối sâu, màu xanh lạnh, độ tương phản cao."
  4. Âm thanh và không khí — âm thanh của không gian, các âm thanh cụ thể, hướng âm nhạc hoặc no music. "Tiếng vo ve điện nhẹ, tiếng bàn phím gõ rải rác, no music."
  5. Thông số kỹ thuật — độ phân giải (4K hay không), thời lượng dự kiến, tham chiếu phong cách. "4K, 8 giây, photorealistic."

Ví dụ hoàn chỉnh

Prompt:

"Một đạo diễn phim đang xem lại cảnh quay một mình trong phòng dựng phim tối. Push-in chậm, 50mm, medium close-up, máy cố định rồi từ từ trượt về phía trước. Ánh sáng từ một màn hình duy nhất làm key light, bóng tối sâu, màu xanh lạnh, độ tương phản cao. Tiếng vo ve điện nhẹ, tiếng bàn phím gõ rải rác, no music. 4K, 8 giây, photorealistic."

Prompt này mất chưa đến ba mươi giây để viết. Nó mô tả cảnh quay theo cách mà một director of photography sẽ giải thích cho gaffer, và Veo 3.1 hầu như không có chỗ để đoán sai.

Mẹo

Thêm hướng dẫn âm thanh vào mọi prompt, không chỉ những prompt mà âm thanh quan trọng. Veo 3.1 tạo spatial audio cùng lúc với các frame video — không chỉ định âm thanh không có nghĩa là đầu ra sẽ im lặng, mà là bạn đang nhường quyền kiểm soát cho model. Viết no music nếu bạn muốn room tone sạch để mix riêng.

Bảng từ vựng điện ảnh

Những thuật ngữ này được chuyển trực tiếp thành các tham số tạo sinh của Veo 3.1. Sao chép những cụm từ bạn cần vào prompt.

Chuyển động máy quay

Chuyển độngCụm từ prompt
Tiến lại chậm"slow dolly-in", "gentle push-in"
Rút lui"slow pull-back", "dolly-out to reveal"
Theo dõi ngang"smooth tracking shot from the left", "lateral dolly"
Nâng lên và tiết lộ"slow crane up to reveal the skyline"
Cầm tay tạo căng thẳng"subtle handheld shake, reactive framing"
Cố định, ổn định"tripod-locked", "static wide"
Cung quanh chủ thể"slow arc around the subject"

Kích thước cảnh và góc

Ý địnhCụm từ prompt
Quy mô và bối cảnh"wide 18mm, deep focus, full environment"
Chủ thể trong không gian"medium shot, eye level"
Sự gần gũi"medium close-up, 50mm"
Cường độ"tight close-up, 85mm, shallow focus"
Quyền lực và đe dọa"low angle looking up"
Sự dễ tổn thương"high angle looking down"

Ánh sáng

Hiệu ứngCụm từ prompt
Hơi ấm tự nhiên"golden-hour side light, warm highlights, cool shadows"
Độ tương phản kịch tính"chiaroscuro, single hard source from camera right"
Không khí đô thị"neon spill, magenta and cyan, reflections in wet pavement"
Phỏng vấn gọn sạch"soft diffused key, slightly warm, low contrast"
Hiện diện ban đêm"practical light only — a single lamp, deep background falloff"

Ví dụ so sánh trước/sau

A: hướng máy quay — đòn bẩy đơn lẻ hiệu quả nhất

Thay đổi tạo ra tác động lớn nhất đối với prompt Veo 3.1 là thêm chuyển động máy quay và tiêu cự. So sánh:

Không có: "A street musician playing violin in the rain."

Có: "Medium close-up of a street musician playing violin in the rain. Slow dolly-in, 85mm, shallow depth of field — background traffic dissolving into blur. Practical street-lamp from above, rim-lighting the bow. Light rain sound, distant traffic, no music."

Phiên bản thứ hai không dùng từ "cinematic" một lần nào. Nó chỉ định những gì làm cảnh quay trở nên điện ảnh — và model dựng lại ý định thay vì chọn một trong mười cách diễn giải chung chung.

B: độ bám sát frame đầu tiên trong luồng ảnh sang video

Veo 3.1 có độ bám sát ảnh đặc biệt mạnh khi bạn cung cấp ảnh tham chiếu làm frame đầu tiên. Model giữ nguyên bố cục, chỉnh màu và các chi tiết nhân vật chính từ frame đầu, sử dụng chúng như ràng buộc xuyên suốt quá trình tạo sinh.

Ứng dụng thực tế: lấy ảnh tĩnh từ buổi chụp thương mại, render sản phẩm hoặc concept nhân vật, cung cấp làm frame đầu tiên trong luồng ảnh sang video của OmniArt, rồi viết prompt mô tả chuyển động từ điểm xuất phát đó.

Prompt sau khi cung cấp frame đầu từ ảnh sản phẩm:

"Chai nước hoa đặt trên bề mặt đá cẩm thạch trắng. Cung chậm từ trái sang phải, chai luôn ở giữa khung. Ánh sáng chiều tà từ cửa sổ cao quét qua kính, bắt sáng các góc cạnh. 4K, 6 giây, no music."

Model kế thừa chính xác ánh sáng, vị trí sản phẩm và kết cấu bề mặt từ ảnh tham chiếu của bạn, rồi áp dụng chuyển động được mô tả — thay vì tạo lại cảnh từ đầu.

Ghi chú

Độ bám sát ảnh mạnh nhất khi ảnh frame đầu tiên của bạn gần với tỷ lệ khung hình và độ phân giải bạn đang tạo. Ảnh vuông dùng cho bản tạo 16:9 sẽ bị cắt hoặc có thanh hai bên, có thể làm thay đổi bố cục mà model kế thừa.

C: spatial audio từ một dòng prompt duy nhất

Spatial audio của Veo 3.1 không cần pass riêng — một dòng mô tả âm thanh trong prompt đã đủ để tạo ra soundscape nhiều lớp với nhận thức về vị trí.

Đoạn prompt:

"...Âm thanh: tiếng mưa thu âm gần trên mái tôn gợn sóng ngay phía trên, đám đông chợ ở xa, thỉnh thoảng xe máy chạy qua từ phải sang trái, no music."

Những gì model tạo ra: tiếng mưa hiện diện và có hướng — bạn nghe thấy nó không gian phía trên cảnh. Tiếng đám đông chợ chiếm tầm xa trung bình. Xe máy quét qua stereo field như được mô tả. Tính định hướng đến từ kiến trúc âm thanh native của Veo 3.1, không phải hậu kỳ. Đặt tên các lớp và mối quan hệ không gian của chúng — close, distant, passing left to right — cung cấp cho model những gì cần để dựng theo vị trí.

Chọn giữa standard, fast và lite

Veo 3.1 có ba tier trên OmniArt. Lựa chọn đúng phụ thuộc vào công việc, không phải thói quen mặc định.

TierKhi nào dùngChi phí credits
veo-3.1-standardĐầu ra cuối cùng, giao hàng broadcast, review với khách hàng, mọi trường hợp dùng 4KCao nhất mỗi giây
veo-3.1-fastLặp lại và tinh chỉnh prompt với chất lượng hợp lýTrung bình
veo-3.1-liteTest concept nhanh, kiểm tra thumbnail, motion pass cho storyboardThấp nhất mỗi giây

Khi 4K xứng đáng với credits thêm: nội dung giao hàng cho màn hình lớn, hero shot sản phẩm, bất kỳ thứ gì sẽ được export ở độ phân giải đầy đủ, hoặc công việc mà chi tiết render của model ở nền và kết cấu quan trọng với brief. 4K chỉ có trên veo-3.1-standard.

Khi 4K là lãng phí: crop cho mạng xã hội ở 1080p trở xuống, bản nháp chuyển động bạn sẽ tạo lại anyway, bất kỳ thứ gì bạn đang khám phá hơn là giao hàng. Dùng veo-3.1-lite cho những việc đó — lặp lại với chi phí thấp, rồi chuyển sang standard cho pass cuối.

Cảnh báo

Chạy 4K trên prompt thăm dò mà bạn sẽ tạo lại nhiều lần sẽ nhân nhanh chi phí credits. Hoàn thiện prompt trên fast hoặc lite trước, rồi commit phiên bản cuối sang standard ở 4K.

Những lỗi prompt phổ biến

Nhồi nhét quá nhiều vào dòng chủ thể. "Một người phụ nữ trung niên tóc xoăn màu đỏ mặc áo khoác vintage đứng bên kênh đào ở Amsterdam cầm bó hoa tulip trông tư lự" nhét quá nhiều chi tiết vào dòng chủ thể đến mức model phải tự chọn những gì thực sự dựng. Chỉ giữ lại những gì thiết yếu cho cảnh quay này và bỏ phần còn lại.

Hướng máy quay mâu thuẫn. "Slow push-in with a wide pull-back" không thể thực hiện về mặt vật lý — model sẽ chọn một và bỏ qua cái kia. Viết một chuyển động có lý do duy nhất mỗi prompt. Nếu bạn cần cảnh quay bắt đầu rộng và thu hẹp lại, đó là push-in, chỉ vậy thôi.

Quên hoàn toàn phần âm thanh. Veo 3.1 sẽ tạo âm thanh dù bạn có hướng dẫn hay không. Tạo âm thanh không có hướng dẫn không phải là im lặng — đó là phỏng đoán tốt nhất của model, có thể không khớp với ý định của bạn. Luôn kết thúc prompt với một dòng âm thanh, dù chỉ là no music, ambient room tone only.

Dùng "cinematic" như từ chỉ phong cách. Từ "cinematic" yêu cầu model đưa ra quyết định mà bạn nên tự đưa ra. Thay thế bằng các thuộc tính hình ảnh cụ thể bạn thực sự muốn: ống kính, ánh sáng, chuyển động, bảng màu.

Bắt đầu trên OmniArt

Veo 3.1 — standard, fast và lite — có sẵn trong không gian làm việc video của OmniArt cùng với tất cả các model khác trong thư viện. Cách nhanh nhất để xây dựng thành thạo là lấy một ý tưởng hiện có, viết theo công thức 5 phần ở trên và tạo trên veo-3.1-fast trước để tinh chỉnh prompt trước khi commit sang standard.

Để biết từ vựng điện ảnh rộng hơn và cách các pattern prompt tương tự áp dụng trên toàn bộ dòng model video của OmniArt, xem hướng dẫn prompt video AI kiểu điện ảnh. Khi bạn sẵn sàng đi sâu hơn vào khả năng tạo âm thanh của Veo 3.1, hướng dẫn thực hành tốt nhất về spatial audio của Veo 3.1 bao gồm soundscape nhiều lớp, gợi ý âm thanh theo vị trí và hướng âm nhạc chi tiết. Để so sánh trực tiếp Veo 3.1 với các model hàng đầu khác, xem Veo 3.1 vs Sora 2.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí