8 个真正有效的 Grok Imagine 提示词
八条可直接复制使用的 Grok Imagine 1.5 图像与视频提示词,基于 FLUX.1 自然语言风格,遵循「主体 + 动作 + 镜头 + 风格 + 音频」结构,并解析每条提示词的生成效果与原理,在 OmniArt 中即可运行。

Grok Imagine 1.5 将图像底座升级为 Black Forest Labs 的 FLUX.1,这一变化对提示词写法有切实影响:该模型理解自然语言描述的方式,更像摄影师读取拍摄简报,而非旧模型解析关键词列表。以下八条提示词可直接复制使用——粘贴到 OmniArt 的 Grok Imagine 工作区,根据实际需求调整细节,即可生成。每个示例包含完整提示词文本、生成效果说明,以及一条关于结构设计的创作注解。
如需了解 OmniArt 所有模型通用的提示词理论,请参阅如何写出更好的提示词。如需深入了解 Grok Imagine 六种生成模式及费用计算,请参阅 Grok Imagine 创作指南。本文专注于 Grok Imagine 1.5——即 FLUX.1 版本——以及它所擅长回应的提示词写法。
Grok Imagine 1.5 对提示词写法的改变
FLUX.1 基础模型的训练方式与早期文生图架构不同。它能良好解析连贯的散文表述,而对纯关键词堆叠的响应相对偏弱。以下五个习惯能最可靠地提升生成质量:
- 自然语言优于关键词堆叠。 完整句子的表现优于逗号分隔的形容词列表。"街道在蓝色时刻,被便利店招牌的光晕照亮"胜过"街道、夜晚、霓虹、电影感、4K"。
- 具体指代优于模糊形容词。 "使用富士 XT4 拍摄,23mm f/2"比"高质量照片"告诉模型更多信息。具体设备名称和胶片型号在潜空间中承载着真实权重。
- 精确颜色词优于"色彩丰富"。 "电蓝色和亮粉色"能产生刻意的调色板,"色彩丰富"只会产生平均化的噪点。
- 精确时间优于"黄金时刻"。 "10 月下旬,下午 5:45,太阳在地平线以上 6°"能告诉模型准确的光线角度和暖度,而"黄金时刻"因季节和纬度不同而含义模糊。
- 视频结构:主体 + 动作 + 镜头 + 风格 + 音频。 将核心主体和动作放在前 20–30 个词。单一风格焦点优于混搭风格。渐进迭代——每次生成只改变一个变量,直到结果锁定,再继续深化。
如需了解可迁移到视频的完整电影语言词汇,电影感 AI 视频提示词指南深入介绍了镜头选择、有动机的镜头运动和光线语言。
8 条提示词
1. 电影级产品静物照(图像)
35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete,
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey
shadow fill. No props, no reflections except the concrete surface itself.
生成效果: 一张干净、具有艺术指导感的静物照,呈现出专业产品摄影的质感,而非 AI 图片的即视感。
为何有效: 富士 XT4 的指代将色彩科学和传感器渲染锚定在一个具体的真实世界观感上。光线角度以数字方式指定,避免模型默认使用漫射顶光。将色板限定为两种颜色——暖琥珀高光、冷蓝灰阴影——防止模型引入第三种竞争色调。
2. 带音频的角色特写(视频)
Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath
the dialogue. 8 seconds.
生成效果: 一个带有原生 Grok Imagine 1.5 音频的角色片段——模型在单次推理中同时生成对话、唇形同步和环境音。
为何有效: 对话内容简短,足以在 8 秒内实现清晰的唇形同步。两个独立的、具名的霓虹光源(粉色顶光、右侧青色)为模型提供了清晰的光线图,防止出现泛化的"霓虹城市"效果。"不是电影戏剧感"是一个负向约束,比正面形容词更精准地引导了情绪氛围。
提示
在 10 秒以内的片段中,将说出的对话控制在一两句简短句子。台词过长会挤占可用时长,模型可能会加速播放或提前截断音频。
3. 氛围环境——环境音片段(视频)
Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals.
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird,
near-silence underneath. No music. 12 seconds.
生成效果: 一个营造氛围的环境片段,非常适合用作背景素材、转场或开场镜头。
为何有效: "11 月初,上午 7 点"比"有雾的早晨"更准确。推镜被描述为"几乎感知不到"且"如呼吸般漂移",比"缓慢推进"更精确地传达了节奏。要求无音乐使音频不会默认变成配乐——模型转而生成真实的实地录音风格环境音。
4. 快节奏竖版社交视频——产品揭示(视频)
9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above,
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean
single synthesizer tone during rotation. 8 seconds.
生成效果: 一个专为 TikTok、Reels 或 Shorts 设计的 9:16 社交短视频——快剪产品揭示,带原生音频。
为何有效: 在提示词最开头指定 9:16 就确定了画幅比例。时间线被明确写出("0–2s / 2–8s"),帮助模型正确节奏两个节拍,而非将其混合为一个动作。具名音频事件(撞击声、合成器音调)比"添加音效"能产生更有意图的声音设计。
警告
Grok Imagine 1.5 片段最长 15 秒。社交内容建议将片段控制在 8–10 秒以内——模型在这个时长范围内的动作效果最佳,社交平台的注意力窗口也更短。在 720p 下,8 秒片段在 OmniArt 上消耗 120 积分。
5. 风格化插图(图像)
Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only:
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture:
visible paper grain throughout.
生成效果: 一幅图形化、有限色的插图,呈现出真实印刷工艺感,而非泛化的数字艺术风格。
为何有效: 指定印刷工艺名称(Risograph)及其具体约束(两种墨色、平面图形、无渐变、套色错位)为模型提供了完整的技术简报。"套色错位"是那种能将输出锚定在真实世界美学中的物理工艺细节——这是 FLUX.1 版本中命名胶片型号的等效操作。缺少这一细节,模型往往会添加渐变或混合颜色。
6. 动态镜头运动——无人机后拉(视频)
Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck,
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass,
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.
生成效果: 一个持续 15 秒的揭示镜头——模型的最大片段时长——围绕一个有动机的持续镜头运动构建。
为何有效: 这个提示词将完整的 15 秒时长用于一个连续运动,这是在该时长下获得干净效果最可靠的方式。后拉被约束在恒定高度(无倾斜),防止模型即兴发挥第二个镜头轴线并产生不流畅的运动。"LOG 风格色彩、轻微镜头暗角"编码了真实摄像机质感,无需指定具体设备名称。
7. 风格化时尚——胶片人像(图像)
Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery.
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head.
Aspect ratio 4:5.
生成效果: 一张具有准确复古色彩渲染的胶片摄影人像——真实的颗粒感、光晕和过期胶片特有的色彩偏移。
为何有效: "过期柯达 Portra 400"是图像潜空间中最强的单句风格指代之一——它承载着一整套色调预期。指定色彩偏移("绿色略微向黄橄榄偏移")防止了泛化的复古颗粒感,引导了与过期胶片相关的精确色彩失真。紧凑的裁切和具体的画幅比例(4:5)使人像呈现出真实冲印照片的质感。
8. 沉浸式环境——雨夜(视频)
Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine
fading right-to-left. No music. 10 seconds.
生成效果: 一个沉浸式的单视角环境片段——无论作为开场镜头还是独立的氛围作品都非常有力。
为何有效: "6 月下旬 22:00"明确了季节、温度感(潮湿的夏雨)和黑暗程度。骑行者的经过被设定为在特定时刻发生的具体事件("约在片段中段,持续 2 秒"),为模型提供了叙事锚点,同时不要求复杂的角色动作。音频被分解为三个独立层次(玻璃上的雨声、轮胎嘶声、摩托车声),与单一"城市雨声"指令相比,往往能产生更精心设计的音效。
在 OmniArt 上运行这些提示词
所有八条提示词均可在 OmniArt 创作工作区的 Grok Imagine 1.5 中运行——无需单独的 xAI 订阅。图像提示词(1、5、7)进入图像工作区;视频提示词(2、3、4、6、8)进入视频工作区的 Grok Imagine 部分。
在 OmniArt 运行的几个实用注意事项:
- 从 480p 开始迭代。 在 480p 下,视频每秒消耗 10 积分。结构确定后,再升级到 720p(每秒 15 积分)进行最终渲染。
- 使用延长模式增加时长。 氛围片段(提示词 3)和无人机后拉(提示词 6)可使用 Grok Imagine 的延长模式额外延伸至多 15 秒——使用同一模型,仅对新增部分计费。
- 使用修改模式进行针对性修正。 如果结果的光线基本正确但某个元素有偏差,修改模式允许你用文字描述变化,无需重新生成完整片段。在传入修改模式之前,保持源片段为 480p——该模式的输入上限为 854×480。
- 跨镜头角色一致性: 如果你需要生成同一角色的多个镜头(参考提示词 2 的风格),使用参考模式,以头像作为
@Image1,并在每个新提示词中重新描述角色外观。Grok Imagine 1.5 的参考模式是在不依赖微调模型的情况下保持一致性最直接的途径。
如需了解所有六种 Grok Imagine 生成模式的完整说明、费用场景以及何时切换至其他模型,请参阅完整 Grok Imagine 指南。如需了解可迁移到任何视频提示词的更广泛电影摄影词汇,电影感 AI 视频提示词指南值得与本文一同收藏。
准备好创作了吗?
开始用 AI 生成精彩内容