从产品照片到视频:OmniArt AI 工作流实战
用 OmniArt 现有模型,把一张产品照片变成让人停止滑动的视频——这正是 Google 刚刚为 Gemini 预览的图生视频流程,现在就能在 OmniArt 上实现。

6 月 30 日,Google 在 Gemini 中展示了一套全新组合:用 Nano Banana 2 Lite 做快速图片编辑,用 Gemini Omni Flash 做短视频生成,两者通过 Interactions API 串联在一起。旗舰演示 Omni Product Studio 拿一张静态产品照片,先编辑成干净的电商实拍图,再把这张图动画化成一段短视频——全流程一气呵成。Google 还用同样的思路又演示了两次:"Anywhere"(把一张照片放进新的场景,再让它动起来)和 "Space Lift"(把室内设计静态图变成电影感漫游视频)。三个演示的共同模式是:先编辑图片,再交给视频模型。
你并不需要用 Google 那套特定流程,也能跑通这个工作流。OmniArt 已经具备两个关键组件——一个专为这类编辑打造的图片模型,以及一整套能把静态图变成动态画面的视频阵容。下面是同样的照片转视频流程,从头到尾完整走一遍——准备、编辑、动画化、导出——全部使用目前已确认在 OmniArt 上线的模型,并附上每一步的示例提示词。
OmniArt 目前实际可用的是什么
Nano Banana 2 Lite 是全新推出的模型,Gemini Omni Flash 的开发者 API 以及与它的串联搭配也刚刚开放——两者都还没有进入 OmniArt 工作区,本教程也不会要求你使用它们。眼下已经上线的是用于图片编辑步骤的 Nano Banana 2(不是新的 Lite 档位),在图片模型选择器中标注为"新品"和"热门",加上用于动画化步骤的完整视频阵容——包括本文搭配使用的 Seedance 2.0。下面的每一条提示词,都能在你今天就能打开的模型上直接运行。
提示
Google 的 Omni Product Studio 组合——编辑环节用 Nano Banana 2 Lite(1K 分辨率图片 $0.034,每张约 4 秒),动画环节用 Gemini Omni Flash(每秒 $0.10,上限 10 秒),两者通过 Interactions API 串联——正是下文这套工作流的专属打造版本。这两个模型目前都还没有进入 OmniArt 工作区,OmniArt 正在评估两者。等它们上线后,下面这些步骤不会改变——只会变得更快、更便宜。相关背景请参阅 Gemini Omni Flash 开发者 API 上线:I/O 之后有哪些新变化和 Nano Banana 2 Lite 对比 2 与 Pro:Gemini 图片模型怎么选。
你需要准备什么
- 一张产品照片——自己拍摄或一张干净的产品目录图
- 一个可访问图片和视频工作区的 OmniArt 账户
- 用于编辑步骤的 Nano Banana 2
- 用于动画化步骤的视频模型——本指南使用 Seedance 2.0,因为它的参考系统在运动过程中能很好地保持产品的形状和颜色
- 可选:导出前用 OmniArt 的音频模型做一轮配音
| 步骤 | 工作区 | 模型 | 任务 |
|---|---|---|---|
| 1 | — | — | 拍摄或获取一张干净的产品照片 |
| 2 | 图片 | Nano Banana 2 | 清理背景、场景搭建、生活方式变体 |
| 3 | 视频 | Seedance 2.0 | 把编辑好的照片动画化成短片 |
| 4 | 视频 | Seedance 2.0 | 在不同种子变体之间锁定一致性 |
| 5 | 音频 + 导出 | — | 配音与平台导出 |
第一步:拍摄或获取一张干净的产品照片
编辑和动画化两个步骤,都只能基于第一帧已有的内容来处理,所以在这一步多花几分钟准备,后面能省两次力气。
- 背景简洁、光线均匀。 白色、灰色或无缝背景纸——相比杂乱的背景,Nano Banana 2 在简洁底图上的编辑效果更干净。
- 使用柔光。 生硬的阴影和过曝的反光,是产品一旦开始运动后视频模型最容易扭曲变形的部分。
- 让产品占满画面。 让产品始终是画面中的主体;视频模型会跟随第一帧里视觉权重最高的元素。
- 拍摄最正、最具代表性的角度。 这一帧会成为第一帧,之后的每一帧都会以它为基准做比对。
- 使用你能获取的最高分辨率。 原始像素越多,标签和细节在两个步骤中都能保留得更好。
如果是用现成的产品目录图,而不是重新拍摄呢?规则同样适用——在进入第二步之前,先压平生硬的阴影、裁掉杂乱的元素,因为 Nano Banana 2 是在已有画面基础上编辑,而不是凭空造出一个新产品。
第二步:用 Nano Banana 2 编辑并搭建场景
在 OmniArt 图片工作区打开 Nano Banana 2,把你的原始照片作为参考图上传——你是在编辑它,而不是从零开始描述一个新场景。这正是 Google 演示中值得直接借鉴的部分:图片这一步是一次有针对性的编辑。Nano Banana 2 的调校方向是快速、均衡的编辑,而不是缓慢、极致的渲染,这更适合为一个产品生成几个场景变体,而不是只出一张主图。
以下两条提示词值得一试:
干净的影棚背景:
"编辑这张参考照片。将背景替换为无缝的柔和淡紫灰色影棚背景。产品的形状、比例、颜色和标签文字须与参考图完全一致。在左上方添加柔和的漫射影棚光,并在下方表面添加一层淡淡的倒影。不要改动产品本身。"
生活方式变体:
"编辑这张参考照片。将产品放置在靠窗的浅橡木台面上,配以柔和的晨光。产品的尺寸、颜色和标签须与参考图保持不变。加入浅景深效果,背景做柔和虚化处理。整体呈现自然、编辑感的产品摄影风格,不添加任何文字。"
每种各生成两到三个变体——后面两种你都会用到,因为影棚版会成为"官方"实拍图,生活方式版则能让你多测试一条片段。挑选比例和色彩与原图最接近的那个变体;第三步会把这一帧里已经存在的任何偏差一并动画化放大。
想了解 Nano Banana 2 与其他图片选项的对比,请参阅 GPT Image 2 对比 Nano Banana 2:2026 年该选哪款 AI 图片模型?。关于提示词写作技巧,请参阅如何写出更好的 AI 生成提示词。
第三步:用 Seedance 2.0 让画面动起来
把 Nano Banana 2 的输出带入 OmniArt 视频工作区,打开 Seedance 2.0。先把编辑好的照片上传为起始帧,然后——由于 Seedance 2.0 最多支持九张带标签的参考图——在提示词中把同一张图再上传一次,标记为 @image1。这样模型既有第一帧作为锚点,又有一份身份参考在生成运动时保持一致。提示词里只描述镜头和环境,不要描述产品本身——产品已经由参考图锁定,任何关于它的文字描述都可能让模型"好心办坏事",擅自做出改动。
主图推镜:
"@image1 是产品参考图。全程保持产品的形状、颜色和标签与 @image1 完全一致。镜头在 5 秒内缓慢推近产品。柔和的光线在表面上轻轻流动。背景静止,无镜头抖动,浅景深。"
360 度转台:
"@image1 是产品参考图。产品在无缝影棚背景上原地平滑旋转 360 度,镜头位置锁定不动。光线在整个旋转过程中保持一致。不添加任何道具、背景元素或文字叠加。"
先用快速模式低成本预览运动效果,等你确定满意的提示词和种子后,再用标准模式重新渲染出最终版本——标准模式单条片段成本更高,所以只用在你真正要导出的那一版上。第一轮先生成短片段;4-5 秒对产品还原度的保持效果,好于直接跳到 15 秒。
想了解产品拍摄之外更多的 Seedance 2.0 提示词写法,请参阅 Seedance 2.0 提示词指南:6 个 AI 视频用例。
第四步:保持产品从照片到视频的一致性
这套工作流中风险最高的环节,是图片到视频的交接点——颜色、比例和取景在这里最容易出现偏差。
| 可能出现的偏差 | 原因 | 如何锁定 |
|---|---|---|
| 颜色 | 视频模型会在每一帧重新演绎光线 | 在提示词中写明确切颜色(例如"保持标签的藏蓝色不变"),并固定 @image1 |
| 比例 | 旋转和镜头运动会露出 Nano Banana 2 从未渲染过的角度 | 第一轮先做小幅度的镜头运动;在完整 360 度旋转之前先测试 15-20 度的转动 |
| 取景 | 图片和视频两个步骤之间画面比例的变化,会导致产品被裁切的方式不同 | 在生成之前就设定好导出比例,而不是事后再调 |
| 标签 / 文字清晰度 | 运动模糊和压缩对小号文字影响最大 | 用额度允许的最高分辨率生成,并让带文字的面朝镜头保持更长时间 |
生成两到三个种子变体并排对比,而不是直接采用第一个结果——一条能用的片段和一条变形的片段之间,往往只差在你保留了哪个种子。评判每个变体时,重点看产品偏离起始角度最远的那一帧,因为偏差最先在那里显现。
第五步:润色、加音效并导出
没有声音的产品片段会显得没做完。由于 OmniArt 把图片、视频和音频都放在同一个工作区,导出前直接加一轮音效即可,不必再切换到其他工具——为镜头运动加一层轻柔的风声、一点环境底噪,再用音频模型配一小段音乐。根据投放位置裁剪时长:付费社媒主图片段控制在 5-8 秒,只有当多出来的几秒能展示新内容时才延长。按渠道分别导出——信息流用方形或 4:5,Reels、TikTok 和 Shorts 用 9:16,产品页或 YouTube 用 16:9。
把第二步中编辑好的影棚照片保存到你的参考图库中——它会成为这个产品未来每一条视频的起始帧,这样下一次 SKU 更新或季节性变体,就能从一个已经锁定的视觉基础出发,而不是从零开始。
选用其他视频模型
本文选用 Seedance 2.0,是因为它的参考标签系统是在运动过程中保持产品身份最直接的方式,但它并不是唯一合理的选择——具体可参考下方 FAQ 中按任务类型给出的备选方案。所有这些模型都在同一个视频工作区里,换模型只需要切换一个下拉菜单,不需要重建整套工作流。
想了解完整阵容,请参阅把所有 AI 视频模型装进一个工作区:OmniArt 视频阵容。如果你已经得到满意的片段,想了解更多广告形式的思路,请参阅用产品图片生成视频广告:OmniArt 全流程指南。
FAQ
我现在能在 OmniArt 上使用 Nano Banana 2 Lite 或 Gemini Omni Flash 吗?
还不能。Nano Banana 2 Lite,以及 Gemini Omni Flash 的开发者 API 与串联搭配,都是在 2026 年 6 月 30 日宣布的(Omni Flash 本身其实更早就已在 5 月的 Google I/O 上首发),截至本文撰写时,两者都还没有接入 OmniArt 工作区。本教程改用 Nano Banana 2(当前的非 Lite 版本)和 Seedance 2.0——两者都已上线。OmniArt 正在评估这套新流程未来的接入方案;一旦上线,详情请参阅我们的 Nano Banana 2 Lite 提示词指南。
为什么要先编辑照片再动画化,而不是直接给原始照片做动画?
因为编辑这一步,控制的正是一旦进入运动状态就最难修正的变量——背景、光线、场景搭建。先用 Nano Banana 2 在静态图上把这些问题解决好,视频模型就只需要负责添加运动,而不必一边处理杂乱的背景一边还要保持产品稳定。
拍摄源照片需要专业摄影设备吗?
不需要。在简洁、光线均匀的背景下用手机拍摄就足够——真正的要求是一致性,而不是设备。Nano Banana 2 的编辑步骤,正是把一张过得去的手机照片变成影棚质感静态图的关键。
最终的产品视频应该多长?
对于付费社媒和信息流投放,5-8 秒是比较合适的区间——足够展示运动效果,又不至于太长而失去注意力。产品页和 YouTube 可以更长,前提是多出来的秒数能展示新内容。
如果不用 Seedance 2.0,应该选哪个视频模型?
这取决于具体任务:需要原生 4K 播出级输出选 Veo 3.1,需要在大量 SKU 上高性价比出片选 Kling 3.0,需要快速、生活化风格的社媒短片选 PixVerse。这些模型都和 Seedance 2.0 一样,能在同一个 OmniArt 视频工作区中使用。
我能在 OmniArt 上为最终视频添加音乐或音效吗?
可以。OmniArt 的音频模型和图片、视频工作区在同一个平台内,你可以直接为导出的片段添加音乐、音效或配音,无需离开平台。
在 OmniArt 上开始创作
挑一件产品、一张干净的照片,再留出十五分钟。先在图片工作区用 Nano Banana 2 编辑,再在视频工作区用 Seedance 2.0 把结果动画化,导出前加一小段音乐。这正是 Google 为 Gemini 预览过的那套照片转视频流程,如今已经能在 OmniArt 现有模型上跑通。
准备好创作了吗?
开始用 AI 生成精彩内容