Veo 3.1 공간 오디오: 영상에 딱 맞는 사운드를 위한 모범 사례
Veo 3.1은 대사, 주변음, SFX를 영상과 함께 생성하며 실제 방향 깊이를 구현합니다. OmniArt에서 각 오디오 레이어를 의도적으로 프롬프트하여 영상에 맞는 사운드를 만드는 방법을 알아보세요.

대부분의 AI 영상 오디오는 화면에 '배치'될 뿐, 실제로 '존재'하지 않습니다. 북적이는 시장 클립에는 군중 소음이, 숲 클립에는 새 소리가 얹힙니다. 기술적으로는 맞지만 설득력이 없습니다. 소리가 프레임 안의 사물이 어디 있는지 알지 못하기 때문입니다. Veo 3.1은 네이티브 공간 오디오로 이를 바꿉니다. 모델이 영상과 동시에 소리를 생성하면서, 무엇이 가깝고 무엇이 멀고 무엇이 막혀 있으며 무엇이 뚫고 나오는지를 인식합니다. 피사체 뒤에서 닫히는 문은 전경에서 닫히는 문과 소리가 다릅니다. 세 층 아래의 교통 소음은 도로 바로 옆보다 조용하고 더 넓게 퍼져 있습니다. 이 가이드는 Veo의 오디오 통합 생성 방식, 세 가지 오디오 레이어를 각각 어떻게 생각해야 하는지, 그리고 첫 번째 실행에서 공간감을 구현하는 프롬프트 작성법을 설명합니다. 바로 응용할 수 있는 세 가지 실제 장면 예시도 포함합니다.
Veo 3.1 네이티브 오디오의 작동 방식
Veo 3.1은 오디오와 영상을 단일 통합 패스에서 생성합니다. 무음 영상을 먼저 내보낸 뒤 오디오 모델이 이를 맞추려는 2단계 파이프라인과는 전혀 다릅니다. Veo는 프레임을 구성하는 동시에 사운드스케이프를 구축합니다. 모델은 자신이 생성하는 장면의 공간 배치를 알고 있습니다. 어떤 요소가 카메라 가까이 있는지, 어떤 것이 배경에 있는지, 환경이 얼마나 밀집되어 있는지, 표면이 소리를 흡수하는지 반사하는지를 파악합니다.
이로 인한 실질적 효과는 방향성입니다. 근거리 요소(피사체의 발걸음, 손이 표면을 건드리는 소리, 호흡)는 배경 요소(거리 소음, 환경적 낮은 울림, 군중 잡담)와 다른 겉보기 거리를 가집니다. 모델은 공간 장면을 구성하고 있기 때문에, 사후에 추론하는 것이 아니라 적절한 상대 레벨로 이들을 레이어링할 수 있습니다.
참고
Veo 3.1은 네이티브 4K 출력도 지원하는데, 이는 오디오 프롬프팅에 한 가지 구체적인 의미를 가집니다. 시각적 충실도가 높을수록 프레임 내 환경 세부 사항이 많아지고, 오디오 모델이 반응할 디테일도 늘어납니다. 4K로 촬영한 빗물 맺힌 자갈길 클로즈업은 동일 장면의 720p 부드러운 렌더링보다 모델에 훨씬 많은 정보를 제공합니다.
각각 생각해야 할 세 가지 오디오 레이어
Veo 3.1의 오디오 생성에서 유용한 결과를 얻는 가장 안정적인 방법은, 프롬프트를 한 단어도 쓰기 전에 오디오 지시사항을 세 가지 레이어로 머릿속에서 분리하는 것입니다. 각 레이어는 서로 다른 특성을 가지며 서로 다른 프롬프트 패턴에 반응합니다.
대사
대사는 가장 정밀하게 제어할 수 있는 레이어입니다. 모델에게는 명확한 정보가 필요합니다. 무슨 말을 하는지, 누가 말하는지, 어떻게 전달해야 하는지. 환경음과 달리, 대사는 모델이 읽을 수 있는 시각적 상관물이 없습니다. 걸으면서 말하는 캐릭터는 장보기 목록을 읊든 독백을 하든 외관상 똑같이 보입니다.
대사를 그대로 쓰고, 그 뒤에 전달 방식 메모를 붙이세요. 간결한 전달 형용사 하나가 두세 개보다 보통 더 효과적입니다. 안정적으로 작동하는 전달 메모: warm and unhurried(따뜻하고 여유롭게), flat and exhausted(무감각하고 지쳐서), urgent, just above a whisper(긴박하게, 속삭임보다 약간 크게), soft but careful(부드럽지만 신중하게). 평균적인 결과를 내는 경향이 있는 메모: relaxed but tense나 quiet but intense 같은 상반된 표현의 조합.
대사에도 공간적 맥락이 중요합니다. Voice close-mic'd, room barely audible은 voice slightly distant, reverberant room과 다른 결과를 냅니다. 모델은 묘사한 공간감 수준에 맞춰 음향 환경을 맞춥니다.
주변음과 환경
주변음은 Veo 3.1이 가장 독특하게 처리하는 레이어입니다. 모델이 생성 중인 공간 배치를 알기 때문에, 레이어와 거리로 환경을 묘사하면 모델이 실제로 그에 반응할 수 있습니다.
유용한 정신적 모델: 세 개의 동심원 구역을 상상하세요. 근경(카메라에서 손이 닿는 거리), 중경(활성 장면 공간), 원경(창문 너머나 프레임 끝에서 들리는 소리). 각 구역의 요소를 명명하고 상대적 레벨을 표시하면 모델에게 공간 믹스 목표를 제공할 수 있습니다.
| 구역 | 예시 요소 | 프롬프트 표현 |
|---|---|---|
| 근경 | 천 스치는 소리, 호흡, 손이 표면에 닿는 소리 | "close fabric rustle", "subject's quiet breathing" |
| 중경 | 발걸음, 대화 소리, 도구 소리, 요리 소리 | "footsteps on concrete nearby", "clink of cups on the counter" |
| 원경 | 도로 교통 소음, 군중 소음, 환경 울림 | "traffic muffled behind glass", "distant crowd, barely audible" |
세 구역을 모두 채울 필요는 없습니다. 미니멀리스트 실내 장면은 중경 요소 하나와 미묘한 공간 잡음만 필요할 수도 있습니다. 소리가 없어야 하는 구역을 과도하게 묘사하면 믹스가 지저분해집니다.
음향 효과(SFX)
SFX는 특정 시각적 순간에 연결된 독립적인 오디오 이벤트입니다. 문이 열리는 소리, 물건을 내려놓는 소리, 알림음, 차량 통과 소리 등. Veo는 영상과 함께 오디오를 생성하기 때문에, 화면 내 가시적인 행동에 해당하는 SFX는 자연스럽게 싱크가 맞는 경향이 있습니다. 모델은 손이 컵에 닿기 전부터 그 사실을 알고 있습니다.
정확한 타이밍이 필요한 SFX의 경우, 오디오 이벤트가 아닌 시각적 이벤트로 묘사하세요. "She sets the phone face-down on the desk"는 시각적 행동과 그 소리를 함께 유도합니다. "a clunk as the phone hits the desk"는 소리를 추상적으로 묘사하여 싱크 맞추기가 더 어렵습니다.
화면 내 행동에 연결되지 않은 SFX, 즉 프레임 밖에서 나는 소리나 환경적 구두점이 필요할 때는 대사 큐처럼 처리하세요. 명시적으로 명명하고 공간적 맥락을 부여하세요. "A car alarm starts briefly in the distance, off-frame right"는 "random street noise includes a car alarm"보다 훨씬 정확합니다.
세 가지 실제 장면
이 예시들은 세 가지 다른 오디오 시나리오에 전체 프롬프트 패턴을 적용하는 방법을 보여줍니다. 각각은 서로 다른 주요 오디오 과제를 다룹니다.
장면 1: 거리에서의 근거리/원거리 공간 레이어링
개요: 피사체가 상업 거리를 따라 상점 입구를 향해 걷습니다. 오디오는 근거리 요소(피사체의 발걸음, 주변 호흡)와 주변 환경(교통 소음, 상점 문 소리) 사이의 공간적 차이를 보여줘야 합니다.
프롬프트:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
예상 결과: 발걸음 소리가 근거리에 위치하여 배경 교통 소음과 명확히 분리되어야 합니다. 문에서의 전환, 즉 외부에서 소음이 차단된 내부로의 이동이 프롬프트가 목표하는 공간 이벤트이며, Veo의 통합 생성은 모델이 그 순간의 시각적 블로킹을 알고 있음을 의미합니다.
조정 방향: 교통 소음이 발걸음에 비해 너무 크면 traffic well back, not competing with footsteps를 추가하세요. 문 전환이 너무 갑작스러우면 gradual acoustic shift as the door opens를 추가하세요.
장면 2: 주변음만으로 분위기를 전달하는 대사 없는 장면
개요: 황혼의 넓은 실내 장면, 대사도 명확한 행동도 없습니다. 오디오는 환경 레이어만으로 장면의 정서적 분위기를 완전히 전달해야 합니다.
프롬프트:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
예상 결과: 이벤트 사이의 정지가 이벤트 자체만큼 들리는 레이어드 환경 믹스. 모델은 quiet enough to hear the silence between sounds를 믹스 레벨 지시사항으로 처리하여 모든 요소를 공간 잡음이 감지될 만큼 낮게 유지해야 합니다.
조정 방향: quiet enough to hear the silence는 each element appearing only briefly, not constant를 추가하여 강화할 수 있습니다. 분위기를 해치지 않으면서 내러티브 구두점을 추가하려면 a phone buzzing once on a surface, off-frame을 더하세요.
팁
장면 3: 대사의 문장 수준 억양 제어
개요: 캐릭터가 카메라를 향해 하나의 질문을 합니다. 전달에는 자연스러운 문장 수준의 억양이 필요합니다. 특히 질문 끝의 들림 억양이 필요하고, 기계적으로 평탄하게 읽어서는 안 됩니다.
프롬프트:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
예상 결과: rising slightly on 'find out'과 genuinely confused rather than angry라는 전달 메모가 오디오 파형과 음조 윤곽 모두를 형성해야 합니다. 공간 지시사항(no reverb)은 음향 환경을 설정하여 대사가 다른 공간에서 녹음된 것처럼 들리지 않도록 합니다.
조정 방향: 전달이 너무 평탄하면 quiet을 controlled but emotionally present로 교체하세요. 문장 억양이 살아나지 않으면 전달 메모와 감정 메모를 분리하세요. 먼저 감정을 명시한 다음 구체적인 억양 지시사항을 기술하세요.
재생성 전에: 평탄하거나 기계적인 결과 읽기
모든 생성에 프롬프트 수정이 필요한 것은 아닙니다. 일부 결과는 더 긴 길이나 다른 시드만 있으면 됩니다. 하지만 프롬프트 자체가 문제임을 나타내는 특정 패턴들이 있습니다.
평탄한 결과(공간감 없음): 모든 오디오 요소가 전경/배경 구분 없이 동일한 겉보기 거리에 위치합니다. 해결책: 최소 두 요소에 명시적인 공간 언어를 추가하세요. 하나는 가깝게, 하나는 멀거나 먹먹하게. 모델이 반응하려면 대비가 필요합니다.
기계적 대사: 일정한 속도로 말하며 멈춤, 음조 변화, 마지막 음절 억양이 없습니다. 해결책: 프롬프트에 하나의 구체적인 억양 지시사항을 작성하세요(질문 끝에 올라가기, 감정적 비트에서 느려지기, 문장 끝에서 내려가기). natural이나 realistic 같은 추상적 전달 메모는 결과를 바꾸기에 너무 막연합니다.
믹스 과부하: 너무 많은 오디오 요소가 존재감을 다투어 어느 것도 명확히 자리잡지 못합니다. 해결책: 가장 중요한 두세 요소로 줄이고 상대적 레벨을 명시적으로 묘사하세요. 세 개의 잘 배치된 소리가 일곱 개의 경쟁하는 소리보다 낫습니다.
잘못된 음향 환경: 시각적 내용에 비해 공간이 너무 울리거나 너무 건조합니다. 해결책: 음향 특성을 직접 명명하세요. dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.
| 증상 | 원인 | 해결책 |
|---|---|---|
| 공간감 없음 | 근거리/원거리 언어 누락 | 2개 이상 요소에 명시적 거리 한정어 추가 |
| 기계적 대사 | 모호한 전달 메모 | 구체적인 억양 지시사항 하나 추가 |
| 혼잡한 믹스 | 음원 과다 | 상대적 레벨 포함 2–3개 요소로 축소 |
| 잘못된 공간 음향 | 음향 맥락 미제공 | 공간 특성 명시적으로 명명 |
모범 사례 요약
| 할 것 | 이유 |
|---|---|
| 쓰기 전에 머릿속에서 대사, 주변음, SFX를 분리 | 각 레이어는 서로 다른 프롬프트 패턴에 반응 |
| 주변음 요소를 구역별로 명명 — 근경, 중경, 원경 | 평면적 묘사가 아닌 공간 믹스 목표를 모델에 제공 |
| 대사를 전달 메모와 함께 그대로 작성 | 모델에는 정확한 텍스트와 음조 방향이 필요 |
| SFX를 오디오 이벤트가 아닌 시각적 이벤트로 묘사 | 화면 행동과의 싱크가 추상적 타이밍보다 모델링하기 쉬움 |
효과음만 원할 때 no music 사용 | 자동 스코어링이 배경 트랙을 추가하는 것을 방지 |
| 명명된 요소 수를 낮게 유지 | 세 개의 잘 배치된 소리가 일곱 개의 경쟁하는 소리를 이김 |
| 음향 환경 명명 | 공간 특성이 다른 모든 요소의 자리를 결정 |
OmniArt에서 시작하기
세 가지 Veo 3.1 변형 모두 — veo-3.1-standard, veo-3.1-fast, veo-3.1-lite — OmniArt 영상 워크스페이스에서 별도의 Google 계정이나 API 키 없이 동일한 크레딧으로 사용할 수 있습니다. 오디오 프롬프팅을 교정하는 가장 빠른 방법은 단순한 장면에서 단일 근거리/원거리 대비로 시작하여 모델 결과를 확인한 다음, 믹스가 원하는 수준이 될 때까지 레이어를 하나씩 추가하는 것입니다.
Veo 3.1의 촬영 기법과 프롬프트 구조에 대한 보다 포괄적인 내용은 Veo 3.1 프롬프트 및 시네마틱 가이드를 참조하세요. 단일 통합 패스에서 오디오를 생성하는 다른 파이프라인을 사용하고 있다면, Grok Imagine 네이티브 오디오 가이드에서 xAI의 네이티브 오디오 시스템에 대한 유사한 프롬프팅 로직을 다룹니다.
제작할 준비가 되셨나요?
AI로 멋진 콘텐츠를 생성하세요