industryMô hình và insight8 phút đọc

Đầu vào any-to-any của Gemini Omni Flash: thực chất nó làm được gì

Đa phương thức là điểm nhấn đặc trưng của Gemini Omni Flash, nhưng API thực tế hẹp hơn phần quảng bá. Đây là những gì đầu vào any-to-any thực sự thay đổi về cách viết brief.

Đội ngũ OmniArt
Đầu vào any-to-any của Gemini Omni Flash: thực chất nó làm được gì

Từ ngữ gánh vác nặng nhất trong lần ra mắt của Gemini Omni Flash là "Omni" — lời hứa về một mô hình duy nhất mà bạn có thể đưa vào văn bản, hình ảnh, âm thanh và video cùng một lúc, trong một prompt. Đó là một điểm nhấn thực sự khác biệt so với các mô hình video một-đầu-vào ra đời trước nó, và đó là lý do mô hình xứng với cái tên của mình. Nhưng phiên bản thực sự được phát hành trong API cho nhà phát triển hẹp hơn cách trình bày tại buổi công bố, và khoảng cách đó quan trọng nếu bạn đang lên kế hoạch cho công việc thực xoay quanh nó.

Bài viết này tách biệt những gì any-to-any thực sự mang lại cho bạn hôm nay khỏi những gì vẫn còn là kỳ vọng — rồi đi tới điểm hữu ích hơn, đó là cách đầu vào đa phương thức thay đổi chính cách bạn viết một bản brief.

"Any-to-any" thực chất nghĩa là gì

Hầu hết các mô hình video chỉ chấp nhận một loại chỉ dẫn. Bạn viết văn bản, hoặc bạn cung cấp một hình ảnh tham chiếu duy nhất, và mô hình làm việc từ đó. Đầu vào any-to-any nghĩa là một cú pháp prompt duy nhất chấp nhận nhiều phương thức cùng lúc và trả về một kết quả mạch lạc tôn trọng tất cả chúng: một frame tham chiếu cho phần nhìn, một clip ngắn cho chuyển động, và một chỉ dẫn bằng chữ cho mọi thứ còn lại — kết hợp lại, chứ không phải chọn giữa chúng.

Sự chuyển dịch là từ mô tả một cảnh quay bằng lời sang soạn nó từ các tài sản. Đó là năng lực thực sự, và đó là lý do "đa phương thức" không phải là quảng cáo thuần túy. Câu hỏi là bao nhiêu phần trong đó đang thực sự hoạt động.

Lời quảng bá so với API thực tế

Đây là bảng đối chiếu trung thực cho bản preview hiện tại, lấy thẳng từ tài liệu của chính API:

Đầu vàoTrạng tháiGhi chú
Prompt văn bảnHỗ trợXương sống của mọi lần tạo
Hình ảnh tham chiếuHỗ trợVăn bản sang video, hình ảnh sang video và tham chiếu chủ thể
Video tham chiếuHỗ trợ, có một lưu ýTham chiếu dài hơn 3 giây không được xử lý đầy đủ
Âm thanh tham chiếuKhông hỗ trợBạn không thể tải lên âm thanh hay giọng nói để mô hình khớp theo
Nhiều video tham chiếuKhông hỗ trợMột clip tham chiếu cho mỗi lần tạo
Prompt không phải tiếng AnhChưa kiểm thửTiếng Anh là ngôn ngữ duy nhất được hỗ trợ đầy đủ

Cảnh báo

Khoảng trống về âm thanh là điều dễ làm hỏng kế hoạch nhất. Omni Flash mặc định tạo ra một track âm thanh, nhưng "any-to-any" không bao gồm việc đưa cho nó một nền nhạc, một lời thuyết minh hay một bản ghi âm môi trường để đồng bộ theo. Âm thanh là một đầu ra bạn điều hướng bằng lời, không phải một đầu vào bạn cung cấp.

Vậy nên cách hiểu chính xác: any-to-any hôm nay là đầu vào văn bản + hình ảnh + video, đầu ra video (kèm âm thanh được tạo ra). Nửa còn lại của lời hứa đa phương thức — đầu vào âm thanh — được giữ lại một cách có chủ ý, nhất quán với các tính năng chỉnh sửa lời nói trong video và avatar mà Google giữ lại lúc ra mắt vì lý do an toàn. Đó là một thay đổi năng lực thực so với các mô hình một-đầu-vào; chỉ là nó chưa phải bức tranh any-to-any-to-any đầy đủ như cái tên gợi ý.

Đầu vào đa phương thức thay đổi gì về bản brief

Một khi bạn soạn từ tài sản thay vì mô tả bằng văn xuôi, bản brief tự nó thay đổi hình dạng. Ba đầu vào làm những công việc khác nhau, và kỹ năng nằm ở việc giao mỗi đầu vào cho đúng thứ nó giỏi nhất:

  • Hình ảnh tham chiếu mang phần nhìn — chủ thể, bảng màu, cách dựng khung mà bạn vốn đã thích.
  • Video tham chiếu mang chuyển động — một cú máy hay một hành động bạn muốn lặp lại.
  • Văn bản mang ý định và mọi thứ mà các tài sản chưa thể hiện — tâm trạng, các thay đổi, cái không có trong bất kỳ tham chiếu nào.

Hệ quả thực tế là bạn thôi cố gắng dịch một bức ảnh thành các tính từ. Thay vì viết "một cảnh cận ấm áp với độ sâu trường ảnh nông và cú đẩy vào chậm", bạn cung cấp frame vốn đã trông như thế và clip vốn đã chuyển động như thế, rồi dành lời của mình cho những gì mới. Với bất kỳ ai từng vật lộn để mô tả một thẩm mỹ cụ thể bằng chữ, đó chính là điểm mở khóa của quy trình.

Bốn chế độ tác vụ, và cách chúng kết hợp

API phơi bày bốn loại task, và chúng ánh xạ gọn gàng vào ý tưởng soạn-từ-tài-sản:

  1. text_to_video — mô tả thuần túy, không có tài sản. Phương án dự phòng khi bạn bắt đầu từ con số không.
  2. image_to_video — làm chuyển động một ảnh tĩnh. Điểm khởi đầu phổ biến nhất: một hình ảnh mạnh trở thành frame đầu tiên của chuyển động.
  3. reference_to_video — mang một chủ thể hoặc phong cách từ một tham chiếu vào một lần tạo mới.
  4. edit — chế độ hội thoại, có trạng thái, sửa clip trước đó trong khi vẫn giữ nguyên những gì bạn không thay đổi.

Luồng dự kiến ghép chúng lại: tạo hoặc làm chuyển động một clip nền bằng một trong ba chế độ đầu, rồi chuyển sang edit và tinh chỉnh theo hội thoại. Đó chính là hình dạng của cặp Nano Banana 2 Lite kết hợp với Omni Flash của chính Google — chỉnh một ảnh tĩnh, rồi làm nó chuyển động — nhưng được mở rộng qua nhiều lượt.

Sắc thái về âm thanh, nói cho rõ

Vì âm thanh không thể được cung cấp, thiết kế âm thanh trở thành một công việc viết lách. Mô hình tạo ra lời thoại, hiệu ứng và bầu không khí dựa trên những gì prompt của bạn mô tả — "mưa nhẹ trên cửa sổ, không nhạc" hoặc "một tiếng click nhẹ, rồi tiếng phòng trống". Bạn có được sự kiểm soát thực chất, nhưng đó là kiểm soát bằng mô tả, và nó có nghĩa là hai điều đối với việc lập kế hoạch:

  • Nếu dự án của bạn cần video được tạo ra khớp với một track có sẵn — một bài hát có bản quyền, một đoạn nhạc hiệu thương hiệu, một bản thu VO — thì việc đồng bộ đó diễn ra ở một bước âm thanh riêng, không phải bên trong Omni Flash.
  • Nếu bạn chỉ cần âm thanh gốc phù hợp, thì mô tả nó tốt trong prompt sẽ đưa bạn tới đích mà không cần tải lên.

Vị trí của OmniArt hôm nay

Quy trình soạn-từ-tài-sản không phải thứ bạn phải chờ Omni Flash mới thử được — nó đã chạy trên các mô hình đang hoạt động trong không gian làm việc video của OmniArt, và ở một khía cạnh chúng còn đi xa hơn.

Seedance 2.0, có sẵn trên OmniArt ngay bây giờ, được xây dựng đúng quanh ý tưởng này: nó chấp nhận tối đa chín hình ảnh, ba clip video và — đáng chú ý — ba file âm thanh trong một prompt duy nhất, mỗi thứ gắn với một vai bằng cú pháp @image1 / @video1 / @audio1. Điều đó bao gồm cả đầu vào âm thanh tham chiếu mà Omni Flash giữ lại. Nếu bản brief của bạn phụ thuộc vào việc đưa cho mô hình một âm thanh cụ thể để làm việc, thì con đường đó đã tồn tại hôm nay.

Và hướng đi của cả lĩnh vực rất rõ ràng: Seedance 2.5, công bố hồi tháng 6, đẩy cùng kiến trúc tham chiếu đó lên tới 50 đầu vào đa phương thức cùng một lúc. Đầu vào any-to-any không phải là câu chuyện của một mô hình đơn lẻ — đó là hướng đi của video AI có định hướng. Omni Flash đặt tên cho ý tưởng; còn không gian làm việc thì đã cho bạn thực hành nó.

Mở không gian làm việc video trên OmniArt, tập hợp bộ tham chiếu của bạn, và để các tài sản mang phần nhìn cùng chuyển động trong khi lời của bạn mang ý định. Đó chính là bản brief any-to-any, có ngay bây giờ.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí