guideHướng dẫn và cách làm10 phút đọc

Cách viết prompt cho Gemini Omni Flash để tạo video 10 giây

Gemini Omni Flash có giao diện prompt khác thường: không có tham số phủ định, chỉ hai tỷ lệ khung hình, chỉ hỗ trợ tiếng Anh và hai chế độ viết prompt riêng biệt. Đây là cách viết tốt cả hai.

Đội ngũ OmniArt1 thg 7, 2026

Hầu hết các hướng dẫn viết prompt video AI đều dạy bạn viết một thứ duy nhất: một đoạn văn phong phú, chi tiết mà bạn đưa cho mô hình một lần. Gemini Omni Flash phá vỡ giả định đó. API cho nhà phát triển của nó (hoạt động từ ngày 30 tháng 6) được xây dựng xoay quanh hai hành vi viết prompt khác nhau — lần tạo đầu tiên, và sau đó là một chuỗi hội thoại chỉnh sửa, mỗi lần định hình lại cùng một clip. Viết cho một chế độ mà bỏ qua chế độ kia thì bạn đã để lãng phí phần lớn năng lực của mô hình.

Giao diện prompt của Omni Flash cũng khác thường ở những gì nó lược bỏ. Không có trường prompt phủ định, không có nút chỉnh temperature, không có system instruction, và chỉ có hai tỷ lệ khung hình. Đó không phải là những khoảng trống để né tránh một cách mù quáng — mỗi điểm đều thay đổi cách bạn nên diễn đạt một prompt. Hướng dẫn này bao quát cả hai chế độ và những ràng buộc định hình chúng.

Ghi chú

Tính đến ngày 1 tháng 7 năm 2026, Gemini Omni Flash có sẵn qua Google AI Studio, Gemini API, ứng dụng Gemini và Google Flow — nhưng chưa có trong không gian làm việc của OmniArt. Các phần dưới đây mô tả cách viết prompt trực tiếp trên các công cụ của Google; phần kết ánh xạ những thói quen nào chuyển được sang các mô hình video đang hoạt động trên OmniArt hôm nay.

Hai chế độ prompt, không phải một

Mỗi phiên làm việc với Omni Flash có hai loại prompt, và mỗi loại tưởng thưởng cho một kiểu viết khác nhau.

Prompt tạo lần đầu là một bản brief hoàn chỉnh cho một nhịp 10 giây duy nhất: chủ thể, chuyển động, camera, ánh sáng, âm thanh, phong cách. Nó hoạt động như bất kỳ prompt văn bản sang video hay hình ảnh sang video mạnh nào — dồn chi tiết lên đầu, cụ thể, mô tả toàn bộ cảnh quay cùng một lúc.

Chỉ thị chỉnh sửa hội thoại thì ngược lại. Nó ngắn, chỉ nêu đúng một thay đổi, và giả định rằng mô hình đã giữ sẵn clip trước đó trong bối cảnh. "Chuyển ánh sáng sang giờ vàng." "Đổi chiếc sedan thành xe bán tải." Mô hình áp dụng thay đổi trong khi vẫn giữ nguyên mọi thứ bạn không nhắc đến — thông qua previous_interaction_id mang trạng thái phiên qua tối đa ba lần chỉnh sửa tuần tự bằng Interactions API. Nhồi ba thay đổi vào một chỉ thị chỉnh sửa thì bạn đánh mất độ chính xác vốn làm nên giá trị của chế độ này.

Mô hình tư duy: soạn ở prompt đầu tiên, chỉ đạo ở các lượt tiếp theo. Có được một clip nền vững chắc, rồi tinh chỉnh nó theo cách bạn brief cho một đạo diễn giữa buổi quay — mỗi lần một ghi chú.

Những ràng buộc của API định hình cách diễn đạt

Danh sách tham số của Omni Flash ngắn một cách có chủ đích. Mỗi thứ bị lược bỏ đều kéo theo một hệ quả cho prompt:

Ràng buộc	Ý nghĩa đối với prompt
Không có trường prompt phủ định	Diễn đạt phần loại trừ ngay trong prompt — "một con phố vắng, không người đi bộ, không xe cộ" thay vì một danh sách phủ định riêng
Không có temperature / top_p / system instruction	Bạn không thể chỉnh biến thiên hay đặt một quy tắc phong cách cố định — hãy đưa tông và phong cách vào ngay trong nội dung prompt mỗi lần
Tỷ lệ khung hình: chỉ 9:16 hoặc 16:9	Chọn hướng khung ngay từ đầu; không có tùy chọn vuông hay điện ảnh rộng, nên hãy dựng khung dọc hoặc ngang ngay từ chữ đầu tiên
Âm thanh được mô tả, không bao giờ tải lên	Bạn không thể đưa cho nó một track để khớp — bạn mô tả âm thanh mình muốn bằng lời (xem bên dưới)
Hỗ trợ đầy đủ tiếng Anh; các ngôn ngữ khác chưa được kiểm thử	Viết prompt bằng tiếng Anh để có kết quả đoán trước được
Giới hạn cứng 10 giây	Một hành động rõ ràng cho mỗi lần tạo — không phải một danh sách cảnh quay

Cảnh báo

Omni Flash không cho tải lên âm thanh tham chiếu. Bạn không thể đưa cho nó một nền nhạc hay một mẫu giọng để đồng bộ. Mặc định nó tự tạo một track âm thanh, và cách kiểm soát duy nhất của bạn là những từ ngữ trong prompt — nên phần thiết kế âm thanh phải được viết ra, chứ không phải đính kèm.

Một mẫu cho lần tạo đầu tiên

Vì 10 giây chỉ chứa được một nhịp, những prompt đầu tiên mạnh nhất là những prompt mô tả một khoảnh khắc liên tục duy nhất với mọi lớp được nêu rõ. Sáu ô sau bao quát gần như mọi cảnh quay:

Chủ thể — ai hoặc cái gì xuất hiện trên màn hình, mô tả một cách cụ thể
Chuyển động — một hành động duy nhất diễn ra xuyên suốt clip
Camera — một cú máy duy nhất, không phải một chuỗi ("đẩy vào chậm", "toàn cảnh cố định")
Ánh sáng — hướng, chất lượng, thời điểm trong ngày
Thiết kế âm thanh — âm thanh bạn muốn tạo ra, diễn đạt bằng lời
Phong cách — bảng màu, thời kỳ, tham chiếu phim ảnh, kết cấu

Một ví dụ hoàn chỉnh:

"Một phễu pha cà phê pour-over bằng gốm đặt trên mặt bàn gỗ sồi nhạt, hơi nước bốc lên khi cà phê đen chảy xuống bình thủy tinh bên dưới. Đẩy vào chậm theo dòng nhỏ giọt. Ánh sáng ban mai dịu từ cửa sổ phía trái camera, ấm và khuếch tán. Âm thanh: tiếng nước chảy róc rách nhẹ, tiếng ồn nhà bếp xa xa, không nhạc. Bảng màu editorial trầm, độ sâu trường ảnh nông, quay bằng ống kính prime khẩu lớn."

Chú ý rằng phần loại trừ nằm ngay trong câu ("không nhạc"), camera chỉ có một cú máy, và âm thanh được viết ra rõ ràng. Đó là toàn bộ kỷ luật cần có.

Chỉnh sửa hội thoại: vốn từ vựng đem lại kết quả

Một khi đã có clip nền, chỉnh sửa chính là nơi Omni Flash vượt lên các quy trình tạo-rồi-bỏ. Giữ mỗi chỉ thị ở một ý định duy nhất, và dựa vào một vốn từ động từ nhất quán mà mô hình đọc gọn gàng:

Chiếu sáng lại — "chuyển sang giờ vàng", "thêm viền sáng lạnh từ phía sau"
Thay thế — "đổi phễu pha cà phê thành French press"
Đổi phong cách — "làm cho nó giống phim nhựa thập niên 1970"
Đổi màu — "đổi chiếc cốc sang màu đen mờ"
Chỉnh nhịp — "làm cho dòng rót chậm lại", "để hơi nước lưu lại lâu hơn"

Hai quy tắc giữ cho mạch hội thoại nhất quán. Mỗi lượt một thay đổi — mô hình giữ nguyên những gì bạn không nhắc đến, nên một chỉnh sửa một ghi chú vừa đoán trước được hơn vừa dễ hoàn tác hơn bằng cách viết lại prompt. Và xây dựng dựa trên ngôn ngữ của lượt trước — dùng lại những danh từ bạn đã thiết lập ("chiếc cốc", "dòng rót") để mô hình neo vào cùng những yếu tố đó thay vì suy diễn lại cảnh từ đầu.

Mẹo

Chuỗi ba lần chỉnh sửa là một ngân sách, không phải một gợi ý. Hãy lên kế hoạch cho prompt nền sao cho nó cần ít lượt tiếp theo nhất — một lần tạo đầu tiên mạnh sẽ dành các lượt chỉnh sửa của bạn cho những thay đổi sáng tạo thực sự, chứ không phải để sửa những thứ mà prompt đầu tiên lẽ ra đã có thể nêu rõ.

Xoay xở với các giới hạn hiện tại

Một vài giới hạn không thể giải bằng prompt, và tốt hơn là viết prompt với chúng trong đầu thay vì chống lại chúng:

Giới hạn 10 giây. API không có tính năng kéo dài cảnh, nên đừng viết những prompt ngụ ý một cung diễn biến dài hơn. Hãy thiết kế một nhịp duy nhất có thể đứng độc lập.
Tính nhất quán nhân vật qua các lần đổi cảnh là một điểm yếu đã được thừa nhận. Nếu độ giống nhau quan trọng, hãy giữ các chỉnh sửa trong cùng một cảnh thay vì yêu cầu mô hình đưa nhân vật sang một bối cảnh mới.
Video tham chiếu dài hơn 3 giây không được xử lý đầy đủ. Hãy giữ mọi clip tham chiếu ngắn gọn và đúng trọng tâm.
Không có tham chiếu nhiều video và không có chỉnh sửa giọng nói — cả hai đều chưa được hỗ trợ, nên hãy đưa những bước đó vào một công cụ riêng thay vì vào prompt.

Không điều nào trong số này khiến nó mất tư cách làm một công cụ lặp nhanh, dạng ngắn. Chúng chỉ có nghĩa là Omni Flash tưởng thưởng cho những prompt được giới hạn vào đúng những gì nó làm tốt: một nhịp thật gọn, tinh chỉnh theo hội thoại.

Điều gì chuyển được sang OmniArt hôm nay

Omni Flash chưa có trong không gian làm việc của OmniArt, nhưng gần như mọi thói quen ở trên đều chuyển được sang các mô hình video đang có — bởi vì kỷ luật nền tảng (một nhịp rõ ràng, cụ thể thay vì nhồi từ khóa, âm thanh được viết vào prompt) là độc lập với mô hình.

Tạo sinh dựa trên tham chiếu ánh xạ trực tiếp sang Seedance 2.0, đang hoạt động trên OmniArt, chấp nhận tối đa chín hình ảnh, ba video và ba file âm thanh gắn với các vai bằng cú pháp @image1 / @video1 — đúng ý tưởng "soạn từ tài sản", với nhiều đầu vào hơn Omni Flash cung cấp.
Ngôn ngữ camera điện ảnh ánh xạ sang Veo 3.1, mô hình diễn giải các động từ chuyển động như "drift", "glide" và "dolly in" với sự kiềm chế.
Mẫu sáu ô (chủ thể, chuyển động, camera, ánh sáng, âm thanh, phong cách) chính là bộ khung tạo ra kết quả sạch trên mọi mô hình video trong không gian làm việc.

Mở không gian làm việc video trên OmniArt, chọn mô hình phù hợp với cảnh quay, và viết prompt đầu tiên như một nhịp hoàn chỉnh. Khi Omni Flash ra mắt, quy trình hai chế độ ở trên là phần bạn sẽ bổ sung thêm — còn kỹ năng viết prompt thì đã giống hệt rồi.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí