guide教程与操作指南16 分钟阅读

8 个真正有效的 Grok Imagine 提示词

八条可直接复制使用的 Grok Imagine 1.5 图像与视频提示词，基于 FLUX.1 自然语言风格，遵循「主体 + 动作 + 镜头 + 风格 + 音频」结构，并解析每条提示词的生成效果与原理，在 OmniArt 中即可运行。

OmniArt 团队2026年6月9日

Grok Imagine 1.5 将图像底座升级为 Black Forest Labs 的 FLUX.1，这一变化对提示词写法有切实影响：该模型理解自然语言描述的方式，更像摄影师读取拍摄简报，而非旧模型解析关键词列表。以下八条提示词可直接复制使用——粘贴到 OmniArt 的 Grok Imagine 工作区，根据实际需求调整细节，即可生成。每个示例包含完整提示词文本、生成效果说明，以及一条关于结构设计的创作注解。

如需了解 OmniArt 所有模型通用的提示词理论，请参阅如何写出更好的提示词。如需深入了解 Grok Imagine 六种生成模式及费用计算，请参阅 Grok Imagine 创作指南。本文专注于 Grok Imagine 1.5——即 FLUX.1 版本——以及它所擅长回应的提示词写法。

Grok Imagine 1.5 对提示词写法的改变

FLUX.1 基础模型的训练方式与早期文生图架构不同。它能良好解析连贯的散文表述，而对纯关键词堆叠的响应相对偏弱。以下五个习惯能最可靠地提升生成质量：

自然语言优于关键词堆叠。 完整句子的表现优于逗号分隔的形容词列表。"街道在蓝色时刻，被便利店招牌的光晕照亮"胜过"街道、夜晚、霓虹、电影感、4K"。
具体指代优于模糊形容词。 "使用富士 XT4 拍摄，23mm f/2"比"高质量照片"告诉模型更多信息。具体设备名称和胶片型号在潜空间中承载着真实权重。
精确颜色词优于"色彩丰富"。 "电蓝色和亮粉色"能产生刻意的调色板，"色彩丰富"只会产生平均化的噪点。
精确时间优于"黄金时刻"。 "10 月下旬，下午 5:45，太阳在地平线以上 6°"能告诉模型准确的光线角度和暖度，而"黄金时刻"因季节和纬度不同而含义模糊。
视频结构：主体 + 动作 + 镜头 + 风格 + 音频。 将核心主体和动作放在前 20–30 个词。单一风格焦点优于混搭风格。渐进迭代——每次生成只改变一个变量，直到结果锁定，再继续深化。

如需了解可迁移到视频的完整电影语言词汇，电影感 AI 视频提示词指南深入介绍了镜头选择、有动机的镜头运动和光线语言。

8 条提示词

1. 电影级产品静物照（图像）

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

生成效果： 一张干净、具有艺术指导感的静物照，呈现出专业产品摄影的质感，而非 AI 图片的即视感。

为何有效： 富士 XT4 的指代将色彩科学和传感器渲染锚定在一个具体的真实世界观感上。光线角度以数字方式指定，避免模型默认使用漫射顶光。将色板限定为两种颜色——暖琥珀高光、冷蓝灰阴影——防止模型引入第三种竞争色调。

2. 带音频的角色特写（视频）

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

生成效果： 一个带有原生 Grok Imagine 1.5 音频的角色片段——模型在单次推理中同时生成对话、唇形同步和环境音。

为何有效： 对话内容简短，足以在 8 秒内实现清晰的唇形同步。两个独立的、具名的霓虹光源（粉色顶光、右侧青色）为模型提供了清晰的光线图，防止出现泛化的"霓虹城市"效果。"不是电影戏剧感"是一个负向约束，比正面形容词更精准地引导了情绪氛围。

提示

在 10 秒以内的片段中，将说出的对话控制在一两句简短句子。台词过长会挤占可用时长，模型可能会加速播放或提前截断音频。

3. 氛围环境——环境音片段（视频）

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

生成效果： 一个营造氛围的环境片段，非常适合用作背景素材、转场或开场镜头。

为何有效： "11 月初，上午 7 点"比"有雾的早晨"更准确。推镜被描述为"几乎感知不到"且"如呼吸般漂移"，比"缓慢推进"更精确地传达了节奏。要求无音乐使音频不会默认变成配乐——模型转而生成真实的实地录音风格环境音。

4. 快节奏竖版社交视频——产品揭示（视频）

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

生成效果： 一个专为 TikTok、Reels 或 Shorts 设计的 9:16 社交短视频——快剪产品揭示，带原生音频。

为何有效： 在提示词最开头指定 9:16 就确定了画幅比例。时间线被明确写出（"0–2s / 2–8s"），帮助模型正确节奏两个节拍，而非将其混合为一个动作。具名音频事件（撞击声、合成器音调）比"添加音效"能产生更有意图的声音设计。

警告

Grok Imagine 1.5 片段最长 15 秒。社交内容建议将片段控制在 8–10 秒以内——模型在这个时长范围内的动作效果最佳，社交平台的注意力窗口也更短。在 720p 下，8 秒片段在 OmniArt 上消耗 120 积分。

5. 风格化插图（图像）

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

生成效果： 一幅图形化、有限色的插图，呈现出真实印刷工艺感，而非泛化的数字艺术风格。

为何有效： 指定印刷工艺名称（Risograph）及其具体约束（两种墨色、平面图形、无渐变、套色错位）为模型提供了完整的技术简报。"套色错位"是那种能将输出锚定在真实世界美学中的物理工艺细节——这是 FLUX.1 版本中命名胶片型号的等效操作。缺少这一细节，模型往往会添加渐变或混合颜色。

6. 动态镜头运动——无人机后拉（视频）

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

生成效果： 一个持续 15 秒的揭示镜头——模型的最大片段时长——围绕一个有动机的持续镜头运动构建。

为何有效： 这个提示词将完整的 15 秒时长用于一个连续运动，这是在该时长下获得干净效果最可靠的方式。后拉被约束在恒定高度（无倾斜），防止模型即兴发挥第二个镜头轴线并产生不流畅的运动。"LOG 风格色彩、轻微镜头暗角"编码了真实摄像机质感，无需指定具体设备名称。

7. 风格化时尚——胶片人像（图像）

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

生成效果： 一张具有准确复古色彩渲染的胶片摄影人像——真实的颗粒感、光晕和过期胶片特有的色彩偏移。

为何有效： "过期柯达 Portra 400"是图像潜空间中最强的单句风格指代之一——它承载着一整套色调预期。指定色彩偏移（"绿色略微向黄橄榄偏移"）防止了泛化的复古颗粒感，引导了与过期胶片相关的精确色彩失真。紧凑的裁切和具体的画幅比例（4:5）使人像呈现出真实冲印照片的质感。

8. 沉浸式环境——雨夜（视频）

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

生成效果： 一个沉浸式的单视角环境片段——无论作为开场镜头还是独立的氛围作品都非常有力。

为何有效： "6 月下旬 22:00"明确了季节、温度感（潮湿的夏雨）和黑暗程度。骑行者的经过被设定为在特定时刻发生的具体事件（"约在片段中段，持续 2 秒"），为模型提供了叙事锚点，同时不要求复杂的角色动作。音频被分解为三个独立层次（玻璃上的雨声、轮胎嘶声、摩托车声），与单一"城市雨声"指令相比，往往能产生更精心设计的音效。

在 OmniArt 上运行这些提示词

所有八条提示词均可在 OmniArt 创作工作区的 Grok Imagine 1.5 中运行——无需单独的 xAI 订阅。图像提示词（1、5、7）进入图像工作区；视频提示词（2、3、4、6、8）进入视频工作区的 Grok Imagine 部分。

在 OmniArt 运行的几个实用注意事项：

从 480p 开始迭代。 在 480p 下，视频每秒消耗 10 积分。结构确定后，再升级到 720p（每秒 15 积分）进行最终渲染。
使用延长模式增加时长。 氛围片段（提示词 3）和无人机后拉（提示词 6）可使用 Grok Imagine 的延长模式额外延伸至多 15 秒——使用同一模型，仅对新增部分计费。
使用修改模式进行针对性修正。 如果结果的光线基本正确但某个元素有偏差，修改模式允许你用文字描述变化，无需重新生成完整片段。在传入修改模式之前，保持源片段为 480p——该模式的输入上限为 854×480。
跨镜头角色一致性： 如果你需要生成同一角色的多个镜头（参考提示词 2 的风格），使用参考模式，以头像作为 @Image1，并在每个新提示词中重新描述角色外观。Grok Imagine 1.5 的参考模式是在不依赖微调模型的情况下保持一致性最直接的途径。

如需了解所有六种 Grok Imagine 生成模式的完整说明、费用场景以及何时切换至其他模型，请参阅完整 Grok Imagine 指南。如需了解可迁移到任何视频提示词的更广泛电影摄影词汇，电影感 AI 视频提示词指南值得与本文一同收藏。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始