guide튜토리얼 및 사용 가이드20분 읽기

실제로 효과 있는 Grok Imagine 프롬프트 8가지

FLUX.1 자연어 스타일을 기반으로 주체+동작+카메라+스타일+오디오 구조로 설계한, 바로 복사해서 쓸 수 있는 Grok Imagine 1.5 이미지·영상 프롬프트 8가지. 각 프롬프트의 생성 결과와 효과적인 이유를 OmniArt 기준으로 상세 설명합니다.

OmniArt 팀2026년 6월 9일

Grok Imagine 1.5는 이미지 기반 모델을 Black Forest Labs의 FLUX.1으로 업그레이드했으며, 이 변화는 프롬프트 작성 방식에 구체적인 영향을 미칩니다. 이 모델은 자연어 설명을 사진작가가 촬영 브리프를 읽는 방식으로 해석하며, 이전 모델처럼 키워드 목록을 파싱하지 않습니다. 아래 8가지 프롬프트는 바로 복사해서 사용할 수 있습니다. OmniArt의 Grok Imagine 작업 공간에 붙여넣고 세부 사항을 조정한 뒤 생성하세요. 각 항목에는 정확한 프롬프트 텍스트, 생성 결과, 그리고 구조가 효과적인 이유에 대한 창작 노트가 포함되어 있습니다.

OmniArt 전체 모델에 적용되는 일반 프롬프트 이론은 더 나은 프롬프트 작성법을 참고하세요. Grok Imagine의 6가지 생성 모드와 비용 계산에 대한 심화 내용은 Grok Imagine 크리에이터 가이드를 확인하세요. 이 글은 FLUX.1 버전인 Grok Imagine 1.5와 이 모델이 잘 반응하는 프롬프트 기법에 특화되어 있습니다.

Grok Imagine 1.5가 프롬프트 작성을 어떻게 바꿨나

FLUX.1 기반 모델은 기존 텍스트-이미지 아키텍처와 다른 방식으로 학습되었습니다. 연결된 산문을 잘 해석하며 순수 키워드 나열에는 상대적으로 약한 반응을 보입니다. 품질을 가장 안정적으로 높이는 다섯 가지 습관을 소개합니다.

키워드 나열보다 자연어. 완전한 문장이 쉼표로 구분된 형용사 목록보다 더 좋은 결과를 냅니다. "편의점 간판의 빛이 감도는 블루 아워의 거리"가 "거리, 밤, 네온, 영화적, 4K"보다 낫습니다.
모호한 형용사보다 구체적인 참조. "후지필름 XT4, 23mm f/2로 촬영"이 "고품질 사진"보다 모델에게 더 많은 정보를 전달합니다. 특정 장비명과 필름 종류는 잠재 공간에서 실질적인 가중치를 가집니다.
"화려한"보다 정확한 색상 표현. "전기 블루와 핫 핑크"는 의도적인 팔레트를 만들어냅니다. "화려한"은 평균화된 노이즈를 만들어냅니다.
"황금 시간대"보다 정확한 시간. "10월 하순 오후 5시 45분, 태양이 지평선 위 6°"는 빛의 정확한 각도와 따뜻함을 전달합니다. "황금 시간대"는 계절과 위도에 따라 모호하게 해석됩니다.
영상 구조: 주체 + 동작 + 카메라 + 스타일 + 오디오. 핵심 주체와 동작을 처음 20–30 단어에 배치하세요. 여러 스타일을 혼합하기보다 하나의 스타일에 집중하는 편이 낫습니다. 점진적으로 반복하세요. 결과가 확정될 때까지 생성마다 변수 하나씩 바꾸고, 그런 다음 더 발전시키세요.

영상으로 전환 가능한 영화적 어휘에 대한 전체 설명은 영화적 AI 영상 프롬프트 가이드에서 렌즈 선택, 동기가 있는 카메라 무브, 조명 언어를 심도 있게 다룹니다.

8가지 프롬프트

1. 영화적 제품 사진 (이미지)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

생성 결과: AI 출력물보다 전문 제품 사진처럼 읽히는, 깔끔하고 예술적으로 연출된 정물 사진.

효과적인 이유: 후지필름 XT4 참조는 색 과학과 센서 렌더링을 특정 실세계 룩에 고정시킵니다. 빛의 각도가 수치로 지정되어 모델이 기본값인 확산 상단 조명으로 돌아가는 것을 방지합니다. 팔레트를 두 가지 색상으로 제한하면—따뜻한 앰버 하이라이트, 차가운 블루 그레이 새도우—모델이 세 번째 경쟁 색조를 도입하지 못합니다.

2. 오디오가 포함된 인물 클로즈업 (영상)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

생성 결과: Grok Imagine 1.5의 네이티브 오디오가 포함된 인물 장면—모델이 단일 추론 패스에서 대화, 립싱크, 주변 사운드를 함께 생성합니다.

효과적인 이유: 대사 라인이 8초 내에 립싱크가 깔끔하게 이루어질 만큼 짧습니다. 두 개의 분리된, 명명된 네온 광원(위에서 핑크, 오른쪽에서 청록)이 모델에게 명확한 조명 맵을 제공하여 일반적인 "네온 시티" 평균화를 방지합니다. "영화적 드라마가 아니다"는 긍정적인 형용사보다 분위기를 더 정밀하게 유도하는 부정적 제약입니다.

팁

10초 미만의 클립에서는 구어 대사를 짧은 문장 한두 개로 유지하세요. 대사가 길면 사용 가능한 시간을 채우지 못해 모델이 전달 속도를 높이거나 오디오를 일찍 자를 수 있습니다.

3. 분위기 있는 환경 — 앰비언트 클립 (영상)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

생성 결과: 배경 영상, 전환 소재, 또는 오프닝 장면으로 이상적인 분위기 형성용 앰비언트 클립.

효과적인 이유: "11월 초, 오전 7시"가 "안개 낀 아침"보다 정확합니다. 푸시가 "감지할 수 없을 만큼"이라고 묘사되고 "숨결 위를 떠다니듯"이라고 표현되어, "느린 전진"보다 페이스를 더 정밀하게 전달합니다. 음악을 배제하도록 요청하면 모델이 배경 음악을 기본값으로 사용하지 않고, 실제 현장 녹음 스타일의 앰비언트 사운드를 생성합니다.

4. 빠른 페이스의 세로 소셜 영상 — 제품 공개 (영상)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

생성 결과: 틱톡, 릴스, 쇼츠를 위한 임팩트 있는 9:16 소셜 클립—네이티브 오디오와 함께하는 빠른 컷 제품 공개.

효과적인 이유: 프롬프트 처음에 9:16을 지정하면 다른 모든 것보다 화면 비율이 먼저 설정됩니다. 타임라인이 명시적으로 작성되어("0–2s / 2–8s") 두 비트가 하나의 동작으로 혼합되지 않고 모델이 올바르게 페이스를 조절하도록 돕습니다. 특정 오디오 이벤트(충격음, 신시사이저 톤)를 명명하면 "음향 효과 추가"보다 더 의도적인 사운드 디자인이 나옵니다.

경고

Grok Imagine 1.5 클립은 최대 15초입니다. 소셜 콘텐츠의 경우 클립을 최대 8–10초로 유지하세요. 모델의 모션이 그 범위에서 가장 깔끔하고, 소셜 플랫폼의 집중 시간도 짧습니다. 720p에서 8초 클립은 OmniArt에서 120 크레딧이 소요됩니다.

5. 스타일화된 일러스트레이션 (이미지)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

생성 결과: 일반적인 디지털 아트가 아닌 실제 인쇄 공정처럼 읽히는 그래픽, 제한 색상 일러스트레이션.

효과적인 이유: 인쇄 기법(리소그래프)과 그 구체적인 제약(잉크 두 가지, 평면 도형, 그라데이션 없음, 잉크 정합 불량)을 명명하면 모델에게 완전한 기술 브리프가 제공됩니다. "잉크 정합 불량"은 출력물을 실제 세계 미학에 고정시키는 물리적 공정 세부 사항입니다. FLUX.1 버전에서 필름 스톡을 명명하는 것과 동등한 효과를 냅니다. 이것이 없으면 모델이 그라데이션을 추가하거나 색상을 혼합하는 경향이 있습니다.

6. 역동적인 카메라 무브 — 드론 풀백 (영상)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

생성 결과: 단일 동기 부여된 카메라 무브를 중심으로 구성된, 모델의 최대 클립 길이인 15초 풀 공개 샷.

효과적인 이유: 이 프롬프트는 하나의 연속 모션에 전체 15초를 사용하며, 이는 그 길이에서 깔끔한 결과를 얻는 가장 안정적인 방법입니다. 풀백은 일정한 고도(기울임 없음)로 제한되어 모델이 두 번째 카메라 축을 즉흥으로 추가하거나 흔들리는 모션을 만드는 것을 방지합니다. "LOG 스타일 색상, 약간의 렌즈 비네트"는 특정 장비명 없이도 실제 카메라 룩을 코딩합니다.

7. 스타일화된 패션 — 필름 스톡 인물 사진 (이미지)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

생성 결과: 정확한 빈티지 색상 렌더링이 있는 필름 사진 인물 사진—진정한 그레인, 할레이션, 만료된 필름 특유의 색상 변화.

효과적인 이유: "만료된 코닥 포트라 400"은 이미지 잠재 공간에서 가장 강력한 단일 구문 스타일 참조 중 하나로, 완전한 음조 기대치를 담고 있습니다. 색상 변화("녹색이 황올리브 방향으로 약간 이동")를 지정하면 일반적인 빈티지 그레인을 방지하고 만료된 필름과 관련된 정확한 팔레트 왜곡을 유도합니다. 타이트한 크롭과 특정 화면 비율(4:5)은 실제 인화 사진처럼 보이는 인물 사진을 만들어냅니다.

8. 몰입형 환경 — 빗속 장면 (영상)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

생성 결과: 오프닝 샷 또는 독립적인 분위기 작품으로 강력한 몰입형 단일 시점 환경 클립.

효과적인 이유: "6월 하순 22:00"는 정확한 계절, 온도감(습한 여름비), 어둠의 수준을 명시합니다. 자전거 통행인은 특정 순간의 구체적인 이벤트로 설정되어("클립 중간쯤 약 2초") 복잡한 인물 동작 없이도 모델에게 내러티브 앵커를 제공합니다. 오디오는 세 개의 별도 레이어(유리 위 빗소리, 타이어 마찰음, 오토바이 소리)로 제시되어 단일 "도시 빗소리" 지시보다 더 세심한 사운드 디자인을 만들어냅니다.

OmniArt에서 실행하기

8가지 프롬프트 모두 OmniArt 창작 워크스페이스의 Grok Imagine 1.5에서 실행되며, 별도의 xAI 구독이 필요하지 않습니다. 이미지 프롬프트(1, 5, 7)는 이미지 워크스페이스에, 영상 프롬프트(2, 3, 4, 6, 8)는 Grok Imagine 아래의 영상 워크스페이스에 입력하세요.

OmniArt 실행 시 몇 가지 실용적인 참고사항:

반복 작업은 480p로 시작하세요. 480p에서 영상은 초당 10 크레딧이 소요됩니다. 구조가 올바르면 최종 촬영을 위해 720p(초당 15 크레딧)로 전환하세요.
연장 모드로 길이 늘리기. 앰비언트 클립(프롬프트 3)과 드론 풀백(프롬프트 6)은 Grok Imagine의 연장 모드를 사용해 최대 15초 추가 연장할 수 있습니다. 동일한 모델을 사용하며 추가된 부분에만 요금이 청구됩니다.
수정 모드로 세부 수정. 결과의 조명이 거의 맞지만 한 요소가 어긋나 있다면, 수정 모드를 사용하면 전체 클립을 재생성하지 않고 텍스트로 변경 사항을 설명할 수 있습니다. 수정 모드에 전달하기 전에 소스 클립을 480p로 유지하세요. 이 모드는 854×480으로 입력을 제한합니다.
여러 샷에서 인물 일관성 유지: 동일한 인물의 여러 샷을 생성하는 경우(프롬프트 2 스타일), 헤드샷을 @Image1로 사용하는 참조 모드를 사용하고 각 새 프롬프트에서 인물 설명을 다시 기술하세요. Grok Imagine 1.5의 참조 모드는 파인튜닝된 모델에 의존하지 않고 일관성을 유지하는 가장 직접적인 방법입니다.

6가지 Grok Imagine 생성 모드 전체, 비용 시나리오, 다른 모델로 전환할 때에 대한 전체 설명은 완전한 Grok Imagine 가이드를 참조하세요. 모든 영상 프롬프트에 전환 가능한 더 넓은 영화 촬영 어휘는 영화적 AI 영상 프롬프트 가이드를 이 글과 함께 북마크해 두세요.

제작할 준비가 되셨나요?

AI로 멋진 콘텐츠를 생성하세요

무료로 시작하기