guide모델 및 인사이트10분 읽기

Grok Imagine: 2026년 xAI 영상 모델 크리에이터 가이드

Grok Imagine 실무 가이드 — 6가지 생성 모드, 프롬프트 패턴, 실제 크레딧 비용, 2026년 V6·Sora 2 대비 선택 기준.

OmniArt 팀2026년 5월 5일

Grok Imagine은 xAI의 영상·오디오 생성 모델로, 2026년 1월 출시되었고 별도 xAI 구독 없이 OmniArt에서 쓸 수 있습니다. Grok 챗봇과는 이름만 같고 제품은 다릅니다. 이 가이드는 Grok Imagine이 무엇을 위해 만들어졌는지, 중요한 6가지 생성 모드, 모드별 프롬프트 패턴, 실제 프로젝트 크레딧 비용을 다룹니다.

Grok Imagine이란

Grok Imagine은 1~15초 클립을 최대 720p로, 네이티브 오디오와 함께 생성합니다. 헤드라인은 해상도가 아닙니다 — 720p에서 Sora 2나 V6과 원시 충실도로 싸우지 않습니다. 헤드라인은 모델 주변 워크플로 표면입니다: 하나의 가중치 세트를 공유하는 6가지 모드로 생성·연장·리스타일·수정을 모델을 떠나지 않고 할 수 있다는 점입니다.

스펙	값
최대 해상도	720p(1080p+는 V6)
최대 길이	생성당 15초
종횡비	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
오디오	네이티브, 영상과 동시 생성
비용(480p)	초당 10 크레딧
비용(720p)	초당 15 크레딧

알아둘 6가지 모드

각 모드는 모델이 어떤 입력을 다루는지 다른 방식입니다. 맞는 모드 고르기가 프롬프트 엔지니어링의 대부분입니다.

Text-to-Video

기본값. 프롬프트를 쓰면 클립이 나옵니다. 참조 이미지가 없을 때 컨셉 탐색, 무드보드, 소셜 드래프트에 적합합니다. 해상도에 따라 초당 10~15 크레딧.

Image-to-Video

구도를 유지한 채 정지 화면을 움직입니다. 첫 프레임이 입력에 고정됩니다. 일러스트, 제품 사진, 소스 프레임이 협상 불가인 목업 애니메이션에 쓰세요.

Reference Mode — 차별점

Reference Mode는 첫 프레임을 고정하지 않고 1~7장을 시각 앵커로 받습니다. @Image1, @Image2, @Image3로 태그하고 프롬프트에서 참조합니다. 대부분의 다른 영상 모델은 첫 프레임 고정(이미지-투-비디오)이거나 참조 없음(텍스트-투-비디오)뿐입니다. Reference Mode는 그 사이에 있으며, 여러 샷에서 캐릭터 일관성으로 가는 가장 깔끔한 경로입니다.

비용은 480p 초당 15 크레딧, 720p 22.5.

Extend Mode

기존 클립에 2~~10초를 이어 붙입니다. 입력은 2~~15초 MP4. 출력은 하나의 연속 클립이고, 청구는 추가분만. 크로스 모델 트릭: Extend Mode는 OmniArt 영상 워크스페이스의 어떤 모델로 만든 영상에도 동작합니다.

Modify Mode

재생성 없이 기존 클립 편집 — 배경 교체, 조명, 특정 객체 색, 날씨. 입력은 8초 상한, 854×480으로 자동 스케일되어 고해상도 소스는 왕복에서 디테일을 잃습니다. 어차피 480p로 만든 클립에 Modify를 쓰세요.

Editing Suite — Restyle, Object Manipulation, Sketches to Life

생성 후 연산 모음. Restyle은 Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic. Object Manipulation은 요소 추가·제거·교체. Sketches to Life는 선화 애니메이션. Add Performance는 정적 인물에 캐릭터 애니메이션을 이식. 한 소스에서 여러 변형에 유용합니다.

모델을 존중하는 프롬프트

네 가지 습관이 긴 프롬프트보다 빠르게 품질을 올립니다.

시네마틱 언어 사용

Grok Imagine에는 Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse 여섯 카메라 프리셋이 있습니다. 촬영 용어와 함께 쓰면 더 정확히 작동합니다.

약함	강함
"밤 네온 간판과 사람이 있는 도시 거리"	"비에 젖은 도쿄 골목으로 dolly forward, 웅덩이에 반사된 네온, 얕은 심도, 우산 든 인물이 프레임 오른쪽에서 등장, 시네마틱 2.39:1"

참조를 명시적으로 태그

Reference Mode는 프롬프트가 일반적이면 품질이 떨어집니다. 각 참조에 역할을 묶으세요.

"@Image1(빨간 스포츠카)가 @Image3(노을 하늘) 배경으로 산 코너를 드리프트하고 @Image2(운전자)가 핸들을 꽉 잡는다."

액션을 앞에

생성은 길이 순으로 진행합니다. 5초 클립 끝에 클라이맥스가 있으면 모델이 끝내지 못할 수 있습니다. 액션을 앞으로 옮기세요.

약함	강함
"조용한 숲, 새, 갑자기 사슴이 개울을 뛰어넘음"	"골든아워 숲 개울을 뛰어넘는 사슴, 카메라가 호를 따라감, 가까운 가지에서 새가 흩어짐"

10~15초 클립은 타임라인으로

긴 클립은 타이밍을 프롬프트에 쓰세요.

"버려진 도서관으로 느린 줌(0~~5초), 먼지가 빛줄기를 받음(5~~10초), 책이 선반에서 떨어짐(10~~12초), 페이지가 펄럭임(12~~15초)."

실제 비용

OmniArt 크레딧으로 세 가지 실전 시나리오.

15초 TikTok 제품 영상

단계	모드	해상도	비용
초기 생성	Text-to-Video	480p, 10초	100
연장	Extend	480p, 5초	75
합계(수정 1회)			175~275

3샷 브랜드 스토리보드

단계	모드	해상도	비용
샷 1, 참조 2	Reference, 8초	720p	180
샷 2, 동일 참조	Reference, 8초	720p	180
샷 3, 동일 참조	Reference, 6초	720p	135
샷 2 조명 수정	Modify, 8초	720p	180
합계			675

리스타일 패스

단계	모드	해상도	비용
Anime로 Restyle	Restyle, 8초	480p	120

다른 모델을 고를 때

Grok Imagine은 480p~720p 숏폼 소셜, 스케치 투 라이프, 참조 기반 멀티샷 스토리에 맞습니다. 다음이면 다른 선택이 낫습니다:

필요	더 나은 선택
1080p 이상	V6, BACH, Veo 3
초점·DOF·수차 등 렌즈 제어	V6
한 패스 16~20초	Sora 2
프로덕션급 대화·음악	전용 오디오 모델 + 편집
편집 시 고해상도 보존	Modify Mode 피하기

배포되는 워크플로 패턴

OmniArt에서 Grok Imagine이 빛나는 방식은 단독 생성기가 아니라 반복 레이어입니다.

패턴 1 — 다른 곳에서 생성, 여기서 정제. V6나 Sora 2로 마스터를 고해상도로 렌더한 뒤 Grok에서 Extend, Restyle, Modify로 저비용 변형·추가.

패턴 2 — Reference Mode로 캐릭터 락. 브랜드 캠페인에서 다섯 샷에 같은 캐릭터가 필요하면 @Image1에 앵커 하나로 Reference Mode 각 샷 생성. 샷마다 Sora 2를 다시 굴리는 것보다 저렴할 수 있습니다.

경고

Modify Mode는 854×480 초과 입력을 처리 전 480p로 다운스케일합니다. 1080p 클립을 해상도 손실 없이 편집하려면 다른 곳에서 편집하거나 업스케일 전에 편집하세요.

OmniArt에서 시작하기

Grok Imagine은 OmniArt 영상 워크스페이스에 V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0, Seedance 2.0과 함께 있습니다. 같은 크레딧, 같은 참조 업로드, 같은 프롬프트 문법. Text-to-Video로 카메라 프리셋을 익힌 뒤, 캐릭터나 제품을 고정할 참조가 있으면 Reference Mode로 넘어가세요.

고충실도 내러티브는 BACH 시네마토그래퍼 분석, 모델 선택은 이미지-영상 숏리스트와 짝지으세요.

제작할 준비가 되셨나요?

AI로 멋진 콘텐츠를 생성하세요

무료로 시작하기