guideMô hình và insight13 phút đọc

Âm thanh gốc trong một lần chạy: hội thoại, đồng bộ môi và âm thanh không gian trong Grok Imagine 1.5

Grok Imagine 1.5 tạo token âm thanh và video trong một lần suy luận duy nhất — hội thoại, đồng bộ môi, hiệu ứng âm thanh và nhạc nền cùng lúc. Tìm hiểu cách chỉ đạo thiết kế âm thanh trong prompt, kèm ba cảnh thực hành trong OmniArt.

Đội ngũ OmniArt11 thg 6, 2026

Hầu hết các mô hình video AI tạo ra các clip không có tiếng. Bạn phải xuất video, đưa vào DAW hoặc công cụ âm thanh riêng, tìm lời thoại, âm thanh không gian và nhạc từ các nhà cung cấp khác nhau, căn chỉnh tất cả, rồi hy vọng rằng sự đồng bộ vẫn giữ nguyên. Grok Imagine 1.5 loại bỏ toàn bộ quy trình đó: âm thanh — hội thoại, đồng bộ môi, hiệu ứng âm thanh và các lớp không gian — được tạo ra trong cùng một lần suy luận với các khung hình video. Kết quả là một clip đến nơi đã có sẵn tiếng của nó. Hướng dẫn này giải thích cơ chế âm thanh gốc hoạt động như thế nào, 1.5 cải tiến gì so với 1.0, và cách viết âm thanh vào prompt để mô hình thực sự sử dụng các hướng dẫn đó.

Cách hoạt động của tạo âm thanh gốc

Các mô hình video AI thông thường xử lý âm thanh như một bước hậu kỳ. Token video được tạo trước; sau đó một mô hình âm thanh chạy trên kết quả, cố gắng khớp với những gì đã được render. Vì hai lần chạy độc lập, sự không khớp về thời gian rất phổ biến — cánh cửa đóng sầm sớm một khung hình, lời thoại thở sai nhịp, các lớp âm thanh không gian không phản ứng với sự thay đổi cảnh.

Grok Imagine 1.5 tạo token video và âm thanh cùng nhau trong một lần suy luận duy nhất. Mô hình thấy toàn bộ ngữ cảnh cảnh quay — khung hình, chuyển động của nhân vật, tâm trạng ánh sáng — khi quyết định tạo ra âm thanh gì và khi nào. Chuyển động môi được định hình cùng với dạng sóng âm thanh, không phải áp đặt sau. Các lớp không gian phản ứng với môi trường hình ảnh mà mô hình đang xây dựng, không phải với một khung hình đã xuất mà nó phải diễn giải muộn màng.

Ghi chú

Tạo trong một lần không có nghĩa là độ trung thực âm thanh không giới hạn — clip tối đa ở 720p, 24fps và 1–15 giây, giống như bất kỳ thế hệ Grok Imagine nào. Điều thay đổi là sự nhất quán giữa những gì bạn thấy và những gì bạn nghe.

Những gì thay đổi từ 1.0 đến 1.5

Grok Imagine 1.0 cũng có âm thanh gốc, nhưng kết quả có hai vấn đề nhất quán. Thời gian hội thoại mang tính cơ học: các nhân vật nói theo nhịp đồng đều không có khoảng dừng tự nhiên, lên xuống giọng hay ngữ điệu theo câu. Các lớp không gian bằng phẳng: một cảnh trên đường phố đông đúc nhận được tiếng ồn đám đông chung chung bất kể mật độ hình ảnh, thời tiết hay thời gian trong ngày.

Grok Imagine 1.5 giải quyết cả hai. Cách truyền đạt hội thoại nay tôn trọng nhịp điệu câu — suy nghĩ ngắn đến nhanh, khoảnh khắc cảm xúc chậm lại đôi chút, câu hỏi có sự nâng giọng nghe thấy được ở cuối. Các lớp không gian trở nên phản ứng với cảnh: chợ đêm đẫm mưa nghe khác với chợ khô giữa trưa vì mô hình đọc các tín hiệu hình ảnh mà nó đang tạo ra và điều chỉnh mix âm thanh cho phù hợp.

Khả năng	Grok Imagine 1.0	Grok Imagine 1.5
Thời gian hội thoại	Cơ học, nhịp đều	Dừng tự nhiên, ngữ điệu theo câu
Đồng bộ môi	Nhận ra được nhưng cứng	Đồng bộ với dạng sóng âm thanh được tạo
Các lớp không gian	Bằng phẳng, không theo cảnh	Phản ứng theo cảnh, có lớp
Hiệu ứng âm thanh	Có nhưng mix yếu	Tích hợp với sự kiện hình ảnh
Nhạc nền	Thỉnh thoảng, chung chung	Tự động chấm điểm theo tâm trạng (tùy chọn)

Xếp hạng Arena phản ánh sự cải tiến: Grok Imagine 1.5 đạt +52 Elo so với 1.0 để xếp hạng 1 trên Image-to-Video Arena, vượt qua Seedance 2.0, HappyHorse 1.0 và Google Veo trong thử nghiệm mù. Engine Aurora xử lý các khung hình tuần tự, điều này làm cho chuyển động đủ nhất quán để lần chạy âm thanh tạo ra đồng bộ hữu ích.

Cách viết âm thanh vào prompt

Chỉ đạo âm thanh trong prompt ngôn ngữ tự nhiên tuân theo một số mô hình nhất quán. Mô hình coi các gợi ý âm thanh là một phần của mô tả cảnh, không phải khối hướng dẫn riêng biệt — vì vậy bạn nhúng âm thanh cùng với quay phim, không phải sau đó.

Viết rõ lời thoại và cách truyền đạt

Đừng giả sử mô hình sẽ tự nghĩ ra những từ đúng. Viết rõ câu thoại và theo sau bằng ghi chú cách truyền đạt.

Không có chỉ đạo âm thanh	Có chỉ đạo âm thanh
"Một barista đang nói chuyện với khách hàng"	"Một barista nói 'Đơn của bạn sẽ mất khoảng năm phút' với giọng ấm áp, thư thái; tiếng ồn quán cà phê phía dưới"

Ghi chú truyền đạt hiệu quả: ấm áp, khẩn cấp, buồn chán và mệt mỏi, hơi thở hổn hển nhẹ, nhẹ nhàng nhưng kiên định. Một tính từ thường đủ. Hai từ trở lên bắt đầu mâu thuẫn.

Chỉ định rõ các lớp không gian

Khi bạn để không gian không được chỉ định, mô hình chọn thứ gì đó chung chung. Đặt tên các lớp — bao gồm mức độ tương đối — cho nó một mục tiêu để hướng tới.

"Cận cảnh đầu bếp đang bày đĩa: tiếng chảo xèo xèo ở hậu cảnh, tiếng thông gió bếp êm ái, tiếng muỗng chạm sứ, không có nhạc."

Cụm từ không có nhạc hữu ích khi bạn muốn cảnh chỉ dựa vào hiệu ứng âm thanh và âm thanh phòng. Không có nó, mô hình có thể thêm một bản nhạc nhẹ.

Mô tả nhịp độ và khoảng dừng

Khoảng dừng là sự kiện âm thanh. Nếu một nhân vật do dự trước khi trả lời, hoặc nếu bạn cần hai nhịp im lặng trước khi hiệu ứng âm thanh vào, hãy nói rõ.

"Cô ấy nhìn vào bức thư, hai giây im lặng, rồi thở mạnh."

Quyết định giữa chấm điểm tự động hay ràng buộc

Nếu bạn không đề cập đến âm nhạc, Grok Imagine 1.5 có thể tự động chấm điểm clip với gợi ý phù hợp tâm trạng — dây nhẹ cho cảnh xúc động, nhịp điệu sôi động cho hành động. Điều này hoạt động tốt cho bản nháp mạng xã hội nhanh. Đối với công việc chính xác — khi bạn muốn im lặng, một thể loại cụ thể, hoặc một nhịp phách rơi vào một cú cắt — hạn chế rõ ràng: đặt tên thể loại, cảm giác tempo, hoặc viết không có nhạc nền để tắt nó.

Mẹo

Một tâm trạng âm thanh nhất quán mỗi clip. Đừng yêu cầu "nhạc sôi động và vui vẻ nhưng cũng yên tĩnh và suy ngẫm". Mô hình sẽ chọn một cái và nó sẽ không phải là những gì bạn tưởng tượng.

Ba cảnh thực hành

Những ví dụ này cho thấy mô hình prompt đầy đủ trong thực tế. Mỗi ví dụ bao gồm thiết lập hình ảnh, chỉ đạo âm thanh và những gì lần chạy âm thanh gốc tạo ra.

Cảnh 1: Cận cảnh hội thoại với đồng bộ môi

Mục tiêu: Một nhân vật đọc một câu thoại vào máy quay. Cảnh quay cần đồng bộ môi sạch và truyền đạt tự nhiên, không phải bản thu giọng từ nguồn riêng.

Prompt:

"Cận cảnh vừa của người phụ nữ cuối tuổi 30 tại bàn bếp, ánh sáng buổi sáng từ cửa sổ bên trái cô. Cô nhìn thẳng vào máy quay và nói 'Tôi không nghĩ nó sẽ mất lâu như vậy' với giọng mệt mỏi, chân thật — dừng nhẹ sau 'nghĩ', giọng xuống ở cuối. Phía sau: tiếng tủ lạnh vo ve nhẹ, không có nhạc."

Những gì cần mong đợi: Mô hình tạo ra âm thanh hội thoại và chuyển động miệng trong cùng một lần chạy. Khoảng dừng giữa câu định hình cả dạng sóng âm thanh và chuyển động môi nhìn thấy được. Tiếng tủ lạnh vo ve nằm dưới hội thoại ở mức thấp mà không cạnh tranh với nó.

Điều chỉnh: Nếu giọng truyền đạt quá phẳng, thêm trọng lượng cảm xúc vào ghi chú truyền đạt. Nếu tiếng vo ve quá nổi bật, thêm gần như không nghe thấy trước đó.

Cảnh 2: Môi trường không gian nhiều lớp

Mục tiêu: Một khu chợ đêm đẫm mưa — không có hội thoại, thuần túy bầu không khí. Âm thanh cần cảm thấy nhiều lớp và hiện diện về mặt vật lý, không phải như một file âm thanh vòng lặp đơn.

Prompt:

"Dolly chậm qua khu chợ đêm đông đúc dưới mưa lớn. Biển quảng cáo neon phản chiếu trong vũng nước, hơi nước bốc lên từ các quầy thức ăn. Các lớp âm thanh: mưa lớn trên mái bạt (lớp trên), tiếng xèo xèo của chảo từ các quầy gần, tiếng ồn đám đông mơ hồ ở khoảng cách xa, không có nhạc. Đủ yên tĩnh để cảm thấy gần gũi, không áp đảo."

Những gì cần mong đợi: Vì mô hình đang xây dựng cảnh hình ảnh — mái bạt, quầy hàng, mật độ đám đông — nó có thể phản ứng với những yếu tố đó trong lần chạy âm thanh. Tiếng xèo xèo từ các quầy nhìn thấy trong khung hình có xu hướng to hơn âm thanh đám đông được đặt về mặt không gian ở phía sau.

Điều chỉnh: Thêm giọt mưa ghi âm gần để có kết cấu hơn. Chỉ định một người bán hàng gọi từ xa để giới thiệu một yếu tố âm thanh mang tính kể chuyện mà không cần hội thoại chính thức.

Cảnh báo

Clip chạy 1–15 giây. Một cảnh không gian với nhiều lớp hoạt động tốt nhất ở 8–12 giây — đủ thời lượng để mô hình thiết lập các lớp trước khi clip kết thúc. Các clip rất ngắn (2–4 giây) có thể chỉ render lớp chủ đạo.

Cảnh 3: Nhịp phách được dẫn dắt bởi âm nhạc

Mục tiêu: Chuyển động của vũ công cần đồng bộ với cảm giác nhịp điệu cụ thể — không phải ngẫu nhiên, mà là thiết kế trung tâm của clip.

Prompt:

"Cận cảnh chậm đôi chân vũ công chạm sàn gỗ trong phòng studio tối, một đèn spotlight phía trên. Mỗi bước chân rơi đúng vào nhịp. Âm thanh: techno minimal thúc đẩy khoảng 120 BPM, tiếng va chạm của từng bước chân mix vào nhịp để âm thanh vật lý và nhạc cảm giác như cùng một sự kiện. Không có tiếng ồn phòng xung quanh — âm học chắc và khô."

Những gì cần mong đợi: Mô hình sẽ tạo ra âm nhạc và xử lý các cú va chạm của chân như các sự kiện âm thanh nhịp điệu trong đó. Vì chuyển động và âm thanh được tạo cùng nhau, thời gian hình ảnh của mỗi cú đánh có cơ hội tốt hơn để căn chỉnh với nhịp so với quy trình hai lần chạy.

Điều chỉnh: Chỉ định thể loại khác — minimal house, nhạc gõ giao hưởng, hip-hop ở 90 BPM — để thay đổi cảm giác. Thêm tiếng vang phòng nhẹ nếu âm học khô cảm thấy quá lạnh lẽo.

Tóm tắt thực hành tốt nhất

Việc cần làm	Tại sao quan trọng
Viết lời thoại nguyên văn	Mô hình cần văn bản chính xác để tạo đồng bộ môi
Đặt tên rõ các lớp không gian	Mô tả chung chung tạo ra âm thanh chung chung
Dùng `không có nhạc` khi muốn im lặng hoặc chỉ hiệu ứng	Ngăn chấm điểm tự động ghi đè ý định của bạn
Giữ một tâm trạng âm thanh nhất quán	Chỉ đạo âm thanh mâu thuẫn tạo ra kết quả trung bình, không tập trung
Mô tả khoảng dừng như sự kiện âm thanh	Khoảng dừng định hình cả dạng sóng và chuyển động môi — chúng là một phần của đồng bộ
Ràng buộc nhạc bằng thể loại và tempo	"Nhạc" không có hướng mặc định thành thứ gì đó chung chung

Chi phí tín dụng OmniArt

Âm thanh gốc được bao gồm mà không tốn thêm phí mỗi giây — tỷ lệ tín dụng giống như bất kỳ thế hệ Grok Imagine nào.

Độ phân giải	Tín dụng mỗi giây
480p	10 tín dụng / giây
720p	15 tín dụng / giây

Cảnh hội thoại 10 giây ở 720p tốn 150 tín dụng. Cảnh không gian 12 giây ở 480p tốn 120 tín dụng. Nếu bạn đang lặp lại về chỉ đạo âm thanh cụ thể — điều chỉnh ghi chú truyền đạt hoặc mô tả lớp không gian — bắt đầu ở 480p, tốn ít hơn một phần ba, và chỉ nâng cấp bản quay bạn muốn giữ lại.

Bắt đầu trên OmniArt

Grok Imagine 1.5 có sẵn trong không gian làm việc video của OmniArt cùng với mọi mô hình khác trong thư viện — cùng số dư tín dụng, cùng giao diện prompt, không cần đăng ký xAI riêng. Cách nhanh nhất để tìm hiểu âm thanh gốc có thể làm gì là viết một dòng hội thoại duy nhất vào prompt tạo video từ văn bản và xem mô hình xử lý như thế nào, rồi lặp lại từ đó.

Để có cái nhìn đầy đủ về các chế độ tạo của Grok Imagine, giá cả và khi nào nên dùng so với các mô hình khác, xem hướng dẫn nhà sáng tạo Grok Imagine. Nếu bạn cần hiệu ứng âm thanh bổ sung, không gian hoặc nhạc ngoài lần chạy tạo video, hướng dẫn bộ tạo hiệu ứng âm thanh AI bao gồm các mô hình âm thanh chuyên dụng của OmniArt.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí