Gemini Omni Flash의 any-to-any 입력, 실제로 무엇을 할까
옴니 모달은 Gemini Omni Flash의 대표 강점으로 홍보되지만, 실제 출시된 API는 마케팅보다 좁습니다. any-to-any 입력이 브리프 작성 방식을 실제로 어떻게 바꾸는지 정리했습니다.

Gemini Omni Flash의 출시에서 가장 큰 무게를 짊어진 단어는 "Omni"였습니다. 텍스트, 이미지, 오디오, 동영상을 하나의 프롬프트에 한꺼번에 입력할 수 있는 단일 모델이라는 약속이죠. 이는 그 이전의 단일 입력 동영상 모델과는 확실히 다른 제안이며, 모델이 그 이름값을 하는 이유이기도 합니다. 하지만 개발자 API로 실제 출시된 버전은 발표회 무대에서의 표현보다 좁고, 그 차이는 이를 바탕으로 실제 작업을 계획한다면 중요합니다.
이 글에서는 any-to-any가 오늘날 실제로 가져다주는 것과 여전히 지향점에 머무는 것을 구분하고, 그다음 더 유용한 지점 — 멀티모달 입력이 애초에 브리프를 쓰는 방식을 어떻게 바꾸는지 — 로 넘어갑니다.
"any-to-any"가 실제로 의미하는 것
대부분의 동영상 모델은 한 종류의 방향 지시만 받아들입니다. 텍스트를 쓰거나, 레퍼런스 이미지 한 장을 제공하면 모델이 그것을 바탕으로 작동합니다. any-to-any 입력이란, 하나의 프롬프트 문법이 여러 모달리티를 함께 받아들이고 그 모두를 존중하는 일관된 결과를 반환한다는 뜻입니다. 룩을 위한 레퍼런스 프레임, 움직임을 위한 짧은 클립, 그리고 나머지 모든 것을 위한 글로 쓴 지시가 — 택일이 아니라 결합되어 작동합니다.
이 변화는 샷을 말로 묘사하는 것에서 에셋으로 구성하는 것으로의 전환입니다. 그것이 진짜 역량이며, "옴니 모달"이 순전한 마케팅이 아닌 이유입니다. 관건은 그중 얼마만큼이 실제로 작동하느냐입니다.
홍보와 실제 출시된 API
현재 프리뷰에 대한 솔직한 매트릭스를, API 자체 문서에서 그대로 옮겨 왔습니다.
| 입력 | 상태 | 비고 |
|---|---|---|
| 텍스트 프롬프트 | 지원 | 모든 생성의 근간 |
| 이미지 레퍼런스 | 지원 | 텍스트-영상 변환, 이미지-영상 변환, 피사체 레퍼런스 |
| 동영상 레퍼런스 | 지원, 단 제약 있음 | 3초를 넘는 레퍼런스는 완전히 처리되지 않음 |
| 오디오 레퍼런스 | 미지원 | 모델이 맞출 소리나 음성을 업로드할 수 없음 |
| 다중 동영상 레퍼런스 | 미지원 | 생성당 레퍼런스 클립 하나 |
| 비영어 프롬프트 | 미검증 | 완전히 지원되는 언어는 영어뿐 |
경고
오디오 공백은 계획을 가장 어긋나게 만들기 쉬운 부분입니다. Omni Flash는 기본적으로 오디오 트랙을 생성하지만, "any-to-any"에는 동기화할 배경 음악, 보이스오버, 주변 녹음을 넣어주는 것이 포함되지 않습니다. 오디오는 여러분이 제공하는 입력이 아니라, 말로 방향을 지시하는 출력입니다.
그래서 정확한 해석은 이렇습니다. 오늘날의 any-to-any는 텍스트 + 이미지 + 동영상 입력, 동영상(생성된 오디오 포함) 출력입니다. 옴니 모달 약속의 오디오 입력 절반은 의도적으로 보류되었으며, 이는 Google이 출시 시점에 보안상의 이유로 함께 보류한 영상 내 음성 편집 및 아바타 기능과 일관됩니다. 단일 입력 모델에 비하면 실질적인 역량 변화이지만, 이름이 암시하는 완전한 any-to-any-to-any 그림에는 아직 이르지 못했습니다.
멀티모달 입력이 브리프에 대해 바꾸는 것
산문으로 묘사하는 대신 에셋으로 구성하기 시작하면, 브리프 자체의 형태가 바뀝니다. 세 가지 입력은 서로 다른 일을 하며, 관건은 각각을 가장 잘하는 일에 배정하는 것입니다.
- 이미지 레퍼런스는 룩을 담습니다 — 이미 마음에 드는 피사체, 색감, 구도.
- 동영상 레퍼런스는 움직임을 담습니다 — 재현하고 싶은 카메라 이동이나 동작.
- 텍스트는 의도, 그리고 에셋이 아직 보여주지 않는 모든 것을 담습니다 — 분위기, 변경 사항, 어느 레퍼런스에도 없는 요소.
실질적인 효과는, 그림을 형용사로 번역하려 애쓰지 않게 된다는 것입니다. "따뜻하고 얕은 심도의 클로즈업에 천천히 밀고 들어가는"이라고 쓰는 대신, 이미 그렇게 보이는 프레임과 이미 그렇게 움직이는 클립을 제공하고, 새로운 것에 단어를 쓰면 됩니다. 특정 미감을 텍스트로 묘사하느라 씨름해 본 사람에게는, 이것이야말로 워크플로우의 해방입니다.
네 가지 작업 모드, 그리고 결합 방식
API는 네 가지 task 유형을 제공하며, 이들은 에셋으로 구성하기라는 개념에 깔끔하게 대응됩니다.
text_to_video— 순수 묘사, 에셋 없음. 아무것도 없이 시작할 때의 대안입니다.image_to_video— 정지 이미지에 움직임을 부여. 가장 흔한 진입점으로, 강력한 이미지가 움직임의 첫 프레임이 됩니다.reference_to_video— 레퍼런스의 피사체나 스타일을 새로운 생성으로 가져옵니다.edit— 언급하지 않은 것을 유지하면서 이전 클립을 수정하는, 대화형·상태 유지 모드.
의도된 흐름은 이들을 연결합니다. 앞의 세 가지 중 하나로 베이스를 생성하거나 움직임을 부여한 뒤, edit로 넘어가 대화로 다듬습니다. 이는 Google 자체의 Nano Banana 2 Lite와 Omni Flash 조합 — 정지 이미지를 편집한 뒤 움직임을 부여하는 — 과 같은 형태를, 여러 턴에 걸쳐 확장한 것입니다.
오디오 관련 세부 사항, 명확히 짚기
오디오를 제공할 수 없으므로, 사운드 디자인은 글쓰기 작업이 됩니다. 모델은 프롬프트가 묘사하는 내용을 바탕으로 대사, 효과음, 주변음을 만들어 냅니다 — "창문에 부딪히는 잔잔한 빗소리, 음악 없음" 또는 "부드러운 클릭음 한 번, 그리고 룸톤". 의미 있는 통제권을 얻지만 그것은 묘사에 의한 통제이며, 이는 계획에 두 가지를 의미합니다.
- 생성된 동영상이 기존 트랙 — 라이선스 음원, 브랜드 스팅, 녹음된 보이스오버 — 에 맞아야 하는 프로젝트라면, 그 동기화는 Omni Flash 안이 아니라 별도의 오디오 단계에서 이뤄집니다.
- 잘 어울리는 오리지널 사운드만 필요하다면, 프롬프트에 잘 묘사하는 것만으로 업로드 없이 목표에 도달할 수 있습니다.
오늘날 OmniArt의 위치
에셋으로 구성하기 워크플로우는 시도해 보려고 Omni Flash를 기다려야 하는 것이 아닙니다. 이미 OmniArt 동영상 워크스페이스에서 사용 가능한 모델에서 작동하며, 한 가지 측면에서는 더 나아갑니다.
지금 OmniArt에서 사용 가능한 Seedance 2.0는 바로 이 개념을 중심으로 설계되었습니다. 이미지 최대 9장, 동영상 클립 3개, 그리고 주목할 점으로 오디오 파일 3개를 하나의 프롬프트에서 받아들이며, 각각 @image1 / @video1 / @audio1 구문으로 역할에 바인딩됩니다. 여기에는 Omni Flash가 보류한 오디오 레퍼런스 입력이 포함됩니다. 브리프가 모델에 작업할 특정 사운드를 넣어 주는 데 달려 있다면, 그 방법은 오늘 이미 존재합니다.
그리고 전체 분야의 진행 방향은 분명합니다. 6월에 발표된 Seedance 2.5는 같은 레퍼런스 아키텍처를 한 번에 최대 50개의 멀티모달 입력까지 밀어붙입니다. any-to-any 입력은 단일 모델의 이야기가 아닙니다. 연출형 AI 동영상이 향하는 방향입니다. Omni Flash가 그 개념에 이름을 붙였다면, 워크스페이스는 이미 그것을 연습할 수 있게 해 줍니다.
OmniArt에서 동영상 워크스페이스를 열고, 레퍼런스 세트를 구성한 뒤, 에셋이 룩과 움직임을 담게 하고 여러분의 단어가 의도를 담게 하세요. 그것이 바로 지금 이용할 수 있는 any-to-any 브리프입니다.
제작할 준비가 되셨나요?
AI로 멋진 콘텐츠를 생성하세요