Veo 3.1 spatial audio: thực hành tốt nhất cho âm thanh khớp với cảnh quay
Veo 3.1 tạo hội thoại, âm thanh môi trường và SFX cùng với video — với chiều sâu định hướng thực sự. Cách viết prompt cho từng lớp audio có chủ đích để âm thanh thực sự khớp với cảnh quay trong OmniArt.

Hầu hết audio trong video AI nghe có vẻ được "đặt vào" thay vì thực sự "hiện diện". Clip chợ đông đúc có tiếng đám đông; clip rừng có tiếng chim hót. Đúng về mặt kỹ thuật nhưng không thuyết phục, vì âm thanh không biết mọi thứ ở đâu trong khung hình. Veo 3.1 thay đổi điều này với native spatial audio: mô hình tạo âm thanh cùng với video, nhận thức được cái gì gần, cái gì xa, cái gì bị cản và cái gì xuyên qua. Cánh cửa đóng sau lưng nhân vật nghe khác với cánh cửa đóng ở tiền cảnh. Giao thông ba tầng bên dưới yên tĩnh và lan tỏa hơn giao thông ở mặt đường. Hướng dẫn này giải thích cách Veo tạo audio cùng video, cách nghĩ về ba lớp audio riêng biệt và cách viết prompt tạo ra chiều sâu không gian ngay từ lần chạy đầu tiên — kèm ba cảnh quay mẫu bạn có thể điều chỉnh ngay.
Cách native audio của Veo 3.1 hoạt động
Veo 3.1 tạo audio và video trong một lần xử lý tích hợp duy nhất. Không giống pipeline hai bước — nơi video câm được xuất ra và mô hình audio sau đó cố khớp với nó — Veo xây dựng soundscape đồng thời xây dựng các frame. Mô hình biết bố cục không gian của cảnh mà nó đang tạo: phần tử nào gần camera, phần tử nào ở phía sau, môi trường dày đặc đến mức nào, liệu bề mặt có hấp thụ hay phản xạ âm thanh.
Hiệu ứng thực tế là tính định hướng. Các phần tử near-field (bước chân nhân vật, tay chạm vào bề mặt, hơi thở) nằm ở khoảng cách biểu kiến khác với các phần tử phía sau (tiếng ồn đường phố, tiếng vo ve môi trường, tiếng trò chuyện đám đông). Mô hình có thể xếp chồng những âm thanh này ở các mức tương đối phù hợp vì nó đang xây dựng cảnh không gian, không phải suy ra sau thực tế.
Ghi chú
Veo 3.1 cũng xuất native 4K, điều này quan trọng với audio prompting theo một cách cụ thể: độ trung thực hình ảnh cao hơn nghĩa là nhiều chi tiết môi trường hơn trong frame — và nhiều chi tiết hơn để mô hình audio phản hồi. Cận cảnh 4K của con đường đá đọng nước mưa cho mô hình nhiều thứ để làm việc hơn so với render 720p mềm mại của cùng cảnh đó.
Ba lớp audio cần nghĩ riêng biệt
Cách đáng tin cậy nhất để có kết quả hữu ích từ việc tạo audio của Veo 3.1 là tách riêng các hướng dẫn audio thành ba lớp trong đầu trước khi viết bất kỳ từ nào của prompt. Mỗi lớp có đặc điểm khác nhau và phản hồi với các pattern prompt khác nhau.
Hội thoại
Hội thoại là lớp có thể kiểm soát chính xác nhất. Mô hình cần thông tin rõ ràng: những gì được nói, ai nói và cách truyền đạt. Không giống âm thanh môi trường — nơi mô hình có thể suy ra nhiều thứ từ bối cảnh hình ảnh — hội thoại không có tương quan hình ảnh mà mô hình có thể đọc. Một nhân vật đi và nói trông giống nhau dù đang đọc danh sách mua sắm hay phát biểu độc thoại.
Viết câu từng từ, sau đó thêm ghi chú diễn xuất. Một tính từ diễn xuất ngắn gọn thường hiệu quả hơn hai hay ba cái. Ghi chú diễn xuất hoạt động đáng tin cậy: warm and unhurried (ấm áp và thong thả), flat and exhausted (phẳng và kiệt sức), urgent, just above a whisper (khẩn cấp, vừa trên mức thì thầm), soft but careful (nhẹ nhàng nhưng cẩn thận). Ghi chú có xu hướng cho kết quả trung bình: xếp chồng các mặt đối lập như relaxed but tense hoặc quiet but intense.
Bối cảnh không gian cũng quan trọng với hội thoại. Voice close-mic'd, room barely audible cho kết quả khác với voice slightly distant, reverberant room. Mô hình sẽ khớp môi trường âm thanh với mức độ không gian môi trường bạn mô tả.
Ambience và môi trường
Ambience là lớp Veo 3.1 xử lý đặc biệt nhất. Vì mô hình biết bố cục không gian mà nó đang tạo, bạn có thể mô tả môi trường theo lớp và khoảng cách và mô hình thực sự có thể hành động dựa trên mô tả đó.
Mô hình tư duy hữu ích: nghĩ đến ba vùng đồng tâm — tiền cảnh gần (trong tầm với của camera), trung cảnh (không gian cảnh hoạt động) và hậu cảnh (những gì sẽ được nghe qua cửa sổ hoặc ở rìa frame). Đặt tên cho các phần tử ở mỗi vùng và chỉ ra mức tương đối của chúng cho mô hình mục tiêu mix không gian.
| Vùng | Ví dụ phần tử | Diễn đạt trong prompt |
|---|---|---|
| Tiền cảnh | Tiếng vải sột soạt, hơi thở, tay trên bề mặt | "close fabric rustle", "subject's quiet breathing" |
| Trung cảnh | Bước chân, cuộc trò chuyện, dụng cụ, tiếng nấu ăn | "footsteps on concrete nearby", "clink of cups on the counter" |
| Hậu cảnh | Tiếng xe cộ, tiếng ồn đám đông, tiếng vo ve môi trường | "traffic muffled behind glass", "distant crowd, barely audible" |
Bạn không cần điền vào cả ba vùng. Một cảnh nội thất tối giản có thể chỉ cần một phần tử trung cảnh và một âm sắc phòng tinh tế. Chỉ định quá nhiều các vùng không nên có âm thanh sẽ làm rối mix.
Hiệu ứng âm thanh (SFX)
SFX là các sự kiện audio riêng biệt gắn với các khoảnh khắc hình ảnh cụ thể: cửa mở, vật thể được đặt xuống, tiếng thông báo, xe cộ đi qua. Vì Veo tạo audio cùng với video, SFX tương ứng với các hành động có thể nhìn thấy trên màn hình có xu hướng đồng bộ tự nhiên — mô hình biết bàn tay đang với lấy cốc trước khi chạm vào.
Với SFX cần đúng điểm, mô tả chúng là sự kiện hình ảnh, không phải sự kiện audio. "She sets the phone face-down on the desk" thúc đẩy cả hành động hình ảnh và âm thanh nó tạo ra; "a clunk as the phone hits the desk" mô tả âm thanh một cách trừu tượng và khó đồng bộ hơn cho mô hình.
Khi bạn cần SFX không gắn với hành động trên màn hình — âm thanh từ ngoài frame, dấu câu môi trường — hãy xử lý như cue hội thoại: đặt tên rõ ràng và cho bối cảnh không gian. "A car alarm starts briefly in the distance, off-frame right" chính xác hơn "random street noise includes a car alarm."
Ba cảnh quay mẫu
Các ví dụ này cho thấy pattern prompt đầy đủ được áp dụng cho ba kịch bản audio khác nhau. Mỗi cái thể hiện thách thức audio chính khác nhau.
Cảnh 1: Xếp lớp không gian gần/xa trên một con phố
Bối cảnh: Một nhân vật đi dọc phố thương mại về phía lối vào cửa hàng. Audio cần thể hiện sự khác biệt không gian giữa các phần tử gần (bước chân nhân vật, hơi thở ambient) và môi trường xung quanh (giao thông, cửa cửa hàng).
Prompt:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
Kết quả kỳ vọng: Bước chân cần nằm ở near-field, tách biệt rõ ràng với giao thông phía sau. Sự chuyển tiếp ở cửa — từ bên ngoài sang nội thất bị cản âm — là sự kiện không gian mà prompt đang hướng đến, và việc tạo tích hợp của Veo có nghĩa là mô hình biết blocking hình ảnh của khoảnh khắc đó.
Đòn bẩy điều chỉnh: Nếu giao thông quá to so với bước chân, thêm traffic well back, not competing with footsteps. Nếu chuyển tiếp cửa quá đột ngột, thêm gradual acoustic shift as the door opens.
Cảnh 2: Mood shot không có hội thoại, chỉ dựa vào ambience
Bối cảnh: Cảnh quay nội thất rộng lúc chạng vạng — không hội thoại, không hành động rõ ràng. Audio phải mang sắc thái cảm xúc của cảnh hoàn toàn qua các lớp môi trường.
Prompt:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
Kết quả kỳ vọng: Mix môi trường nhiều lớp nơi khoảng dừng giữa các sự kiện có thể nghe được rõ như chính các sự kiện. Mô hình nên hiểu quiet enough to hear the silence between sounds là hướng dẫn mức mix — giữ tất cả phần tử đủ thấp để âm sắc phòng cảm nhận được.
Đòn bẩy điều chỉnh: Câu quiet enough to hear the silence có thể tăng cường bằng cách thêm each element appearing only briefly, not constant. Thêm a phone buzzing once on a surface, off-frame để giới thiệu dấu câu tường thuật mà không phá vỡ tâm trạng.
Mẹo
Cảnh 3: Ngữ điệu cấp độ câu trong hội thoại
Bối cảnh: Một nhân vật hỏi một câu duy nhất hướng vào camera. Cách diễn cần ngữ điệu tự nhiên ở cấp câu — cụ thể là sự vươn lên có thể nghe được ở cuối câu hỏi — không phải đọc đều đều máy móc.
Prompt:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
Kết quả kỳ vọng: Ghi chú diễn xuất rising slightly on 'find out' và genuinely confused rather than angry nên định hình cả dạng sóng audio và đường cong cao độ của cách diễn. Hướng dẫn âm sắc phòng (no reverb) thiết lập môi trường âm thanh để hội thoại không nghe như được thu âm ở không gian khác.
Đòn bẩy điều chỉnh: Nếu cách diễn quá phẳng, thay quiet bằng controlled but emotionally present. Nếu ngữ điệu câu không xuất hiện, tách ghi chú diễn xuất khỏi ghi chú cảm xúc: trước tiên nêu cảm xúc, sau đó là hướng dẫn ngữ điệu cụ thể.
Trước khi tạo lại: đọc kết quả phẳng hoặc máy móc
Không phải mọi lần tạo đều cần sửa prompt. Một số kết quả chỉ cần thời lượng dài hơn hoặc seed khác. Nhưng có các pattern cụ thể chỉ ra rằng chính prompt là vấn đề:
Kết quả phẳng (không có chiều sâu không gian): Tất cả phần tử audio ở cùng khoảng cách biểu kiến mà không có sự phân biệt tiền cảnh/hậu cảnh. Sửa: thêm ngôn ngữ không gian rõ ràng vào ít nhất hai phần tử — một được đánh dấu là gần, một được đánh dấu là xa hoặc bị cản. Mô hình cần sự tương phản để hành động.
Hội thoại máy móc: Cách diễn đều đặn không có khoảng dừng, không có biến đổi cao độ, không có ngữ điệu ở âm tiết cuối. Sửa: viết một hướng dẫn ngữ điệu cụ thể vào prompt (lên ở cuối câu hỏi, chậm lại ở nhịp cảm xúc, xuống khi kết thúc câu khẳng định). Ghi chú diễn xuất trừu tượng như natural hoặc realistic quá mơ hồ để thay đổi kết quả.
Mix quá đầy: Quá nhiều phần tử audio cạnh tranh sự hiện diện, không cái nào ngồi rõ ràng. Sửa: giảm xuống hai hoặc ba phần tử quan trọng nhất và mô tả mức tương đối của chúng một cách rõ ràng. Ba âm thanh được đặt tốt còn hơn bảy âm thanh cạnh tranh.
Môi trường âm học sai: Phòng nghe quá vang hoặc quá khô so với hình ảnh. Sửa: đặt tên trực tiếp cho đặc điểm âm học — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.
| Triệu chứng | Nguyên nhân có thể | Sửa |
|---|---|---|
| Không có chiều sâu không gian | Thiếu ngôn ngữ gần/xa | Thêm từ xác định khoảng cách rõ ràng cho 2+ phần tử |
| Hội thoại máy móc | Ghi chú diễn xuất mơ hồ | Thêm một hướng dẫn ngữ điệu cụ thể |
| Mix quá đầy | Quá nhiều nguồn | Giảm xuống 2–3 phần tử với mức tương đối |
| Môi trường âm học sai | Không có bối cảnh âm học | Đặt tên rõ ràng cho đặc điểm phòng |
Tóm tắt thực hành tốt nhất
| Phải làm gì | Tại sao |
|---|---|
| Tách hội thoại, ambience và SFX trong đầu trước khi viết | Mỗi lớp phản hồi với các pattern prompt khác nhau |
| Đặt tên phần tử ambient theo vùng — tiền cảnh, trung cảnh, hậu cảnh | Cho mô hình mục tiêu mix không gian, không phải mô tả phẳng |
| Viết câu hội thoại từng từ kèm ghi chú diễn xuất | Mô hình cần văn bản chính xác và định hướng âm điệu |
| Mô tả SFX là sự kiện hình ảnh, không phải sự kiện audio | Đồng bộ với hành động trên màn hình dễ mô hình hóa hơn so với thời điểm trừu tượng |
Dùng no music khi chỉ muốn hiệu ứng | Ngăn auto-scoring thêm track nền |
| Giữ số lượng phần tử được đặt tên thấp | Ba âm thanh đặt tốt thắng bảy âm thanh cạnh tranh |
| Đặt tên môi trường âm học | Đặc điểm phòng quyết định cách tất cả phần tử khác nằm |
Bắt đầu trên OmniArt
Cả ba biến thể Veo 3.1 — veo-3.1-standard, veo-3.1-fast và veo-3.1-lite — đều có sẵn trong không gian làm việc video của OmniArt với cùng số dư tín dụng và giao diện prompt, không cần tài khoản Google riêng hay API key. Cách nhanh nhất để hiệu chỉnh audio prompting là bắt đầu với một tương phản gần/xa duy nhất trong một cảnh đơn giản, xem mô hình tạo ra gì, rồi thêm lớp từng cái một cho đến khi mix ở nơi bạn muốn.
Để xem xét rộng hơn về quay phim và cấu trúc prompt của Veo 3.1, hãy xem hướng dẫn prompt và cinematic của Veo 3.1. Nếu bạn đang làm việc với mô hình tạo audio trong một lần xử lý tích hợp trên pipeline khác, các pattern trong hướng dẫn native audio của Grok Imagine bao gồm logic prompting tương tự cho hệ thống native audio của xAI.
Sẵn sàng sáng tạo?
Bắt đầu tạo nội dung tuyệt vời bằng AI