industryMô hình và insight11 phút đọc

Gemini Omni Flash: những gì đã ra mắt và những gì Google cố tình giữ lại

Google ra mắt Gemini Omni Flash tại I/O 2026 — đây là những gì mô hình Omni đầu tiên có thể làm, những tính năng nào bị cố tình giữ lại và bước đi thực tế cho các nhà sáng tạo trên OmniArt.

Đội ngũ OmniArt
Gemini Omni Flash: những gì đã ra mắt và những gì Google cố tình giữ lại

Google I/O 2026 diễn ra vào ngày 19 tháng 5, và ngay khi keynote kết thúc, Gemini Omni Flash đã có mặt. Không phải "sắp ra mắt", không phải "xem trước giới hạn" — có thể sử dụng ngay trong ngày hôm đó. Hai tuần trước, chúng tôi đã đăng phân tích các tin rò rỉ trước I/O, tách biệt những tín hiệu đã được xác nhận với những phỏng đoán. Bây giờ chúng ta đã có mô hình thực sự. Đây là những gì đã ra mắt, những gì Google cố tình chưa ra mắt, và ý nghĩa của điều đó với các nhà sáng tạo có deadline tuần này.

Omni Flash là mô hình công khai đầu tiên trong framework "Omni" mới của Google. Đây không phải Veo 4, cũng không phải việc đổi tên Veo 3.1 — đây là một dòng sản phẩm riêng biệt, với Omni Pro cấp cao hơn đã được Google DeepMind xác nhận là bước tiếp theo. Chưa có ngày ra mắt cho Omni Pro. Flash là giai đoạn một.

Những gì được xác nhận và những gì bị giữ lại

Bài phân tích tin rò rỉ mô tả mô hình này là "video native Gemini với tham vọng đa phương thức". Điều đó đã được chứng minh đúng. Đây là bức tranh đầy đủ sau khi bụi từ keynote đã lắng xuống.

Tính năngTrạng tháiÝ nghĩa với nhà sáng tạo
Clip video 10 giây với âm thanh đồng bộ từ một prompt duy nhấtĐã ra mắtĐộ dài clip này phù hợp tự nhiên với short-form mạng xã hội, trailer và ident
Nhận đầu vào tùy ý: văn bản, hình ảnh, âm thanh và video trong một promptĐã ra mắtBạn có thể kết hợp ảnh tham khảo, bản ghi âm và bản tóm tắt — một cú pháp prompt cho cả ba
Chỉnh sửa kiểu trò chuyện ("thay đổi ánh sáng", "đổi con chó thành con mèo")Đã ra mắtSự thay đổi quy trình mà bài phân tích rò rỉ đánh dấu là tiêu đề thực sự — chi tiết bên dưới
Hình mờ SynthID trong mọi outputĐã ra mắt — không thể tắt, không có API toggleHãy lên kế hoạch rằng output sẽ luôn có hình mờ theo mặc định; kiểm tra điều khoản sử dụng trước khi dùng thương mại
Chỉnh sửa lời nói hoặc âm thanh trong video đã tạoBị giữ lại vì lý do an toànRủi ro liên quan đến deepfake; Google đã xác nhận đây là quyết định có chủ đích, không phải hạn chế kỹ thuật
Chế độ avatarBị giữ lạiCùng danh mục lo ngại an toàn với chỉnh sửa âm thanh — không có mốc thời gian
API cho nhà phát triển"Trong vài tuần tới"Đừng xây dựng pipeline sản xuất cho đến khi API ra mắt và ổn định

Cảnh báo

Hai tính năng quan trọng — chỉnh sửa âm thanh trong video và chế độ avatar — đã bị cố tình giữ lại khi ra mắt, không phải vì lý do kỹ thuật mà vì an toàn. Google đã xác nhận điều này. Nếu pipeline của bạn phụ thuộc vào một trong hai, hiện không có giải pháp thay thế và không có ngày ra mắt.

Google cũng công khai thừa nhận ba hạn chế hiện tại: tính nhất quán hình ảnh khi chỉnh sửa, các chuỗi chuyển động phức tạp và hiển thị văn bản có thể đọc được trong video. Đây là những điểm yếu chung mà toàn bộ danh mục video AI đang chia sẻ; Omni Flash chưa giải quyết được chúng.

Dự đoán từ tin rò rỉ và thực tế

Trước I/O, chúng tôi đã phác thảo ba kịch bản về những gì Omni có thể là: tái thương hiệu Veo cho người tiêu dùng, mô hình video native Gemini, hoặc hệ thống đa phương thức thống nhất thực sự. Chúng tôi đánh giá "sự kết hợp của kịch bản 2 và 3" là khả năng cao nhất.

Điều đó chính xác. Omni Flash rõ ràng là native Gemini — nó chạy trong ứng dụng Gemini và Google Flow, không phải như một bề mặt Veo độc lập — và thực sự chấp nhận đầu vào tùy ý. Định vị "đa phương thức" mà Google đặt cho nó không phải là phóng đại tiếp thị; kết hợp văn bản, hình ảnh, âm thanh và video trong một prompt là thay đổi năng lực thực sự so với mô hình đầu vào của Veo 3.1.

Điều mà phỏng đoán đã sai: khung "remix" từ tin rò rỉ đã đánh giá thấp chiều sâu của tính năng chỉnh sửa kiểu trò chuyện. Đây không chỉ là remix lại từ đầu. Nó duy trì tính nhất quán qua nhiều lượt chỉnh sửa, điều đó về cơ bản khác biệt.

Chỉnh sửa kiểu trò chuyện mới là tiêu đề thực sự

Tất cả các mô hình video AI lớn ngày nay đều hoạt động theo cách giống nhau ở cấp độ quy trình: bạn viết prompt, chờ đợi, tải clip về và viết lại prompt nếu kết quả chưa đúng. Omni Flash phá vỡ điều này. Tính năng chỉnh sửa kiểu trò chuyện cho phép bạn gõ "đổi ánh sáng thành giờ vàng" hoặc "thay con chó bằng con mèo" và nhận được clip đã chỉnh sửa duy trì tính nhất quán với các output trước đó thay vì tạo lại từ đầu.

Điều này quan trọng vì chi phí lặp lại trong video luôn nằm ở chu kỳ tạo lại — cả về thời gian lẫn tín dụng. Chỉnh sửa nhiều lượt duy trì tính nhất quán giúp thu hẹp khoảng cách giữa bản nháp đầu tiên và clip hoàn chỉnh. Điều đó cũng có nghĩa là mô hình lưu trạng thái về dự án của bạn theo cách mà quy trình tạo-và-bỏ không làm được.

Các hạn chế hiện tại được thừa nhận là có thật: các chuỗi chuyển động phức tạp mất đi tính mạch lạc qua các lần chỉnh sửa, và mô hình vẫn có thể trôi dạt ở các chi tiết hình ảnh tinh tế. Nhưng nguyên tắc quy trình là đúng đắn, và đây là tính năng có khả năng cao nhất sẽ trụ vững theo thời gian khi mô hình nền tảng được cải thiện.

Vị trí của Omni Flash trong dòng sản phẩm

Điểm mạnh của Omni Flash là khả năng tiếp cận với người tiêu dùng, lặp lại kiểu trò chuyện và tính linh hoạt của đầu vào đa phương thức. Các hạn chế — clip 10 giây, không chỉnh sửa lời nói, khoảng cách về chuyển động và hiển thị văn bản được thừa nhận — xác định rõ phân khúc của nó.

Cảnh cầnDùng
Lặp lại kiểu trò chuyện, tinh chỉnh qua chatOmni Flash (trên nền tảng của Google)
4K native, âm thanh không gian, chất lượng phát sóngVeo 3.1
Cảnh quay đơn dàiSora 2
Tính liên tục storyboard nhiều cảnhKling, V6 + BACH
Clip nhanh, phong cách, năng lượng caoCác mô hình PixVerse
Hiệu quả chi phí theo khối lượngKling (giây hoàn chỉnh với chi phí hiệu quả)

Để xem so sánh chuyên sâu giữa Omni Flash và Veo 3.1 từng cảnh một, hãy xem Gemini Omni Flash vs. Veo 3.1: cái nào phù hợp với quy trình của bạn.

Truy cập thực tế ở đâu

Omni Flash có trên YouTube Shorts, YouTube Create, ứng dụng Gemini và Google Flow. Giá thông qua cấp đăng ký AI của Google: AI Plus bắt đầu khoảng $7,99/tháng, và Ultra giảm từ $250 xuống $100/tháng. API dành cho nhà phát triển sẽ ra mắt "trong vài tuần tới" — không có ngày chính xác.

Để hiểu bối cảnh của dòng Veo nói chung, trạng thái ra mắt Veo 4 và vị trí của Veo trên OmniArt đề cập đến những gì Veo 3.1 đã làm được và vai trò của nó trong không gian làm việc đa mô hình.

Omni Pro đã được xác nhận — nhưng chưa có lịch trình

Google DeepMind đã xác nhận Omni Pro cấp cao hơn sẽ ra mắt, được mô tả là "một bước trên Flash". Không có ngày ra mắt, không có danh sách tính năng, và không có quyền truy cập xem trước. Hãy lên kế hoạch dựa trên những gì đã ra mắt, không phải những gì được hứa hẹn.

Nếu pipeline của bạn có deliverable Q3, hãy xây dựng nó dựa trên các thông số đã xác nhận của Omni Flash ngay hôm nay. Khi Omni Pro ra mắt, bạn thêm nó như một tùy chọn trong quy trình đang sản xuất — bạn không chờ đợi nó, và bạn không tái cấu trúc lại nền tảng vì nó.

Ghi chú

Đây chính là lý do cho không gian làm việc đa mô hình trong thực tế: các bản ra mắt mới là bổ sung, không phải gián đoạn. Bạn so sánh chúng với những gì bạn đang giao, không phải những gì bạn đang chờ đợi.

Việc cần làm tuần này

Omni Flash hoạt động trên các nền tảng của chính Google — ứng dụng Gemini, YouTube Shorts, Google Flow. Nếu muốn thử nghiệm chỉnh sửa kiểu trò chuyện, đó là nơi để thực hiện. Google chưa thông báo tích hợp API bên thứ ba ngoài lịch trình "vài tuần tới" dành cho nhà phát triển.

Trên OmniArt, bạn làm việc ngay hôm nay với Veo 3.1 cho 4K native và âm thanh không gian, cùng phần còn lại của dòng sản phẩm — các mô hình PixVerse, Sora 2, Kling, HappyHorse, Seedance 2 và nhiều hơn nữa — cho hình ảnh, video, âm thanh và nhạc trong một không gian làm việc. Một số dư, một cú pháp prompt, một nơi để so sánh output cạnh nhau.

Để biết các bước thực tế nhằm tận dụng tối đa Veo 3.1 trong khi bạn đánh giá Omni Flash, hướng dẫn prompt và điện ảnh Veo 3.1 bao gồm toàn bộ quy trình từ briefing đến clip hoàn chỉnh.

Bước đi thực tế: chạy brief hiện tại của bạn qua các mô hình đang hoạt động và ổn định. Khi Omni Pro ra mắt — hoặc khi API Omni Flash mở — bạn thêm nó vào pipeline đang sản xuất, thay vì chờ đợi để bắt đầu.

Câu hỏi thường gặp

Gemini Omni Flash có sẵn ngay bây giờ không?

Có. Nó được ra mắt tại Google I/O 2026 vào ngày 19 tháng 5 năm 2026 và có thể sử dụng ngay trong ngày hôm đó qua YouTube Shorts, YouTube Create, ứng dụng Gemini và Google Flow. API dành cho nhà phát triển được mô tả là sẽ ra mắt "trong vài tuần tới".

Sự khác biệt giữa Omni Flash và Veo 3.1 là gì?

Omni Flash là native Gemini, chấp nhận đầu vào tùy ý (văn bản, hình ảnh, âm thanh, video trong một prompt) và có chỉnh sửa hội thoại nhiều lượt. Veo 3.1 là mô hình video chuyên dụng với đầu ra 4K native đã được xác nhận và âm thanh không gian. Chúng có điểm mạnh khác nhau và hiện đang hoạt động trên các nền tảng khác nhau.

Google đã giữ lại những tính năng nào của Omni Flash?

Hai khả năng bị cố tình giữ lại: chỉnh sửa lời nói và âm thanh trong video, và chế độ avatar. Google đã xác nhận rằng chúng bị giữ lại vì lý do an toàn, không phải vì hạn chế kỹ thuật. Không có ngày ra mắt cho cả hai.

Gemini Omni Pro có thay thế Flash không?

Google DeepMind đã xác nhận Omni Pro là mô hình cấp cao hơn trong tương lai được mô tả là "một bước trên Flash", nhưng không có tính năng, giá cả hay ngày ra mắt nào được tiết lộ. Lên kế hoạch dựa trên các khả năng đã xác nhận của Flash; coi Omni Pro là bổ sung trong tương lai.

Omni Flash có hình mờ SynthID không?

Có. Mọi output của Omni Flash đều bao gồm hình mờ SynthID. Không thể tắt và không có API toggle. Kiểm tra điều khoản dịch vụ của nền tảng trước khi sử dụng output trong ngữ cảnh thương mại.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí