industryMô hình và insight14 phút đọc

Grok Imagine 1.5 vs 1.0: +52 Elo thực sự thay đổi điều gì

Grok Imagine 1.5 của xAI nhảy vọt +52 Elo so với 1.0, vươn lên vị trí số 1 trên Image-to-Video Arena. Chúng tôi phân tích sự chênh lệch thành bốn thay đổi mà nhà sáng tạo cảm nhận ngay: âm thanh bản địa, clip 15 giây, độ nhất quán khuôn mặt và Extend from Frame — với so sánh trước/sau trong OmniArt.

Đội ngũ OmniArt12 thg 6, 2026

Grok Imagine 1.5 ra mắt dưới dạng bản cập nhật Preview và tạo ra sự khác biệt rõ ràng: +52 Elo so với phiên bản 1.0, vươn lên vị trí đầu bảng Image-to-Video Arena, vượt qua Seedance 2.0, HappyHorse 1.0 và Google Veo trong các bài kiểm tra mù với người dùng. Một bước nhảy 52 điểm trên bảng xếp hạng đã trưởng thành là tín hiệu có ý nghĩa — tương đương tỷ lệ thắng khoảng 57% cho phiên bản 1.5 trong các đối đầu trực tiếp với 1.0.

Con số là tiêu đề. Điều quan trọng cho công việc sản xuất là những thay đổi cụ thể nào đã tạo ra điều đó. Chúng tôi đã chạy 1.5 song song với 1.0 trong không gian làm việc video của OmniArt và sự tiến bộ bắt nguồn rõ ràng từ bốn điều mà nhà sáng tạo cảm nhận ngay lập tức. Không có điều nào là nhỏ nhặt.

Nếu bạn mới làm quen với Grok Imagine, hãy bắt đầu với hướng dẫn cơ bản trước — tài liệu đó đề cập chi tiết sáu chế độ tạo, các mẫu prompt và cách tính credit. Bài viết này giả định bạn đã tạo ít nhất vài clip với phiên bản 1.0 và muốn biết điều gì đáng tạo lại.

So sánh thông số nhanh: 1.0 vs 1.5

Thông số	Grok Imagine 1.0	Grok Imagine 1.5
Độ phân giải tối đa	720p	720p
Thời lượng tối đa	10 giây	15 giây
Tỷ lệ khung hình	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Âm thanh	Bản địa, tạo đồng thời	Bản địa, tạo đồng thời — được cải thiện
Độ nhất quán khuôn mặt	Mức cơ bản	Cải thiện rõ rệt
Extend from Frame	Tiếp nối từ khung cuối	Chọn khung rõ ràng, độ liên tục tốt hơn
Nền tảng tạo ảnh	FLUX.1 (Black Forest Labs)	FLUX.1 (Black Forest Labs)
Chi phí (480p)	10 credit/giây	10 credit/giây
Chi phí (720p)	15 credit/giây	15 credit/giây
Xếp hạng Arena	Nhiều vị trí dưới hạng 1	Hạng 1 Image-to-Video Arena

Giới hạn độ phân giải và giá credit không thay đổi. Sự tiến bộ nằm ở những gì mô hình thực hiện trong các ràng buộc đó.

Thay đổi 1: âm thanh bản địa nghe như một lần xử lý

Grok Imagine đã tạo âm thanh từ phiên bản 1.0 — hội thoại, đồng bộ môi, hiệu ứng âm thanh và nhạc nền, tất cả được xây dựng từ video token trong một lần suy luận duy nhất mà không cần một mô hình âm thanh riêng lẻ ghép vào sau. Trên thực tế, âm thanh của phiên bản 1.0 có hai lỗi thường gặp: thời gian hội thoại cơ học (các từ xuất hiện theo khoảng cách đều đặn, dừng ở các ranh giới ngữ pháp thay vì các điểm thở tự nhiên) và âm nền phẳng (cảnh quán cà phê với một tiếng ồn nền không phân biệt, không có sự biến đổi không gian).

Phiên bản 1.5 giải quyết cả hai. Cùng kiến trúc single-pass giờ tạo ra ngữ điệu ở cấp độ câu — các cụm từ ngắn gọn kết thúc với ngữ điệu xuống, lời giải thích dài hơn có đoạn lên giọng giữa câu nghe được trước khi kết thúc. Âm nền nghe như có nhiều lớp: một cảnh phố tạo ra tiếng giao thông ở xa, tiếng bước chân gần, tiếng cửa hàng bị tắt tiếng phía sau nhân vật. Những điều này không phải là xử lý hậu kỳ; chúng được tạo bằng cùng logic tuần tự từng khung hình mà động cơ Aurora sử dụng cho chuyển động, nơi mỗi khung hình thông báo cho khung tiếp theo và môi trường âm thanh đi theo quỹ đạo hình ảnh.

Prompt ở phiên bản 1.0: "Một barista giải thích quy trình pha chế cho khách hàng qua quầy, nền quán cà phê, ánh sáng ấm."

Kết quả ở 1.0: hội thoại đến theo từng đợt nhịp nhàng đều đặn, tiếng máy espresso nền chạy ở một mức liên tục suốt clip.
Kết quả ở 1.5: lời giải thích của barista có các khoảng dừng tự nhiên giữa câu, máy espresso tăng dần khi có đơn hàng khác bắt đầu, tiếng thì thầm của khách hàng nhỏ hơn và được định vị về mặt không gian xa hơn khỏi trục micro chính.

Sự khác biệt rõ nhất trong các clip có nhiều hội thoại. Nếu bạn đã chuyển video Grok 1.0 qua mô hình âm thanh riêng để làm việc với giọng nói, phiên bản 1.5 đóng phần lớn khoảng cách đó theo cách bản địa.

Thay đổi 2: 10 giây thành 15 giây

Grok Imagine 1.0 giới hạn clip ở mức 10 giây. Phiên bản 1.5 nâng con số đó lên 15 giây, hỗ trợ bất kỳ thời lượng số nguyên nào từ 1 đến 15. Năm giây thêm nghe có vẻ nhỏ. Trên thực tế, đó là sự khác biệt giữa một clip mạng xã hội cần thêm một lần Extend và một clip hoàn thành ngay ở lần tạo đầu tiên.

Tính toán credit thay đổi đáng kể cho các trường hợp sử dụng tiêu chuẩn:

Trường hợp sử dụng	1.0 (tối đa 10g + Extend đến 15g)	1.5 (15g bản địa)
TikTok 15g, 480p	100 (10g) + 75 (5g extend) = 175	150
TikTok 15g, 720p	150 (10g) + 112,5 (5g extend) = 262,5	225
Sản phẩm 10g, 720p	150	150 (không đổi)

Với định dạng mạng xã hội phổ biến nhất — clip 15 giây — phiên bản 1.5 rẻ hơn khoảng 14% ở 480p và 14% ở 720p so với phương pháp tạo-rồi-mở-rộng của 1.0, và bạn bỏ qua được lỗi đường nối đôi khi xuất hiện ở điểm nối của phần mở rộng.

Chế độ Extend vẫn có trong phiên bản 1.5 để vượt quá 15 giây, nhưng bạn chỉ trả chi phí mở rộng cho cảnh quay thực sự cần thêm thời gian, không phải vì tạo cơ sở bắt buộc phải cắt.

Thay đổi 3: độ chính xác khuôn mặt và tính nhất quán nhân vật

Đây là thay đổi khó đo lường nhất và được đề cập nhất quán nhất trong phản hồi của cộng đồng. Grok Imagine 1.0 có thể tạo ra một khuôn mặt thuyết phục ở khung mở đầu rồi mất nó — các đặc điểm biến dạng giữa các khung hình, đặc biệt trong các chuyển động đầu, chuyển tiếp ánh sáng hoặc chuyển động nhanh. Các nhân vật được giới thiệu qua Chế độ Tham chiếu sẽ bị lệch tỷ lệ khuôn mặt trong các clip dài hơn.

Phiên bản 1.5 giải quyết vấn đề này ở cấp kiến trúc. Việc tạo khung hình tuần tự của động cơ Aurora — nơi mỗi khung hình được thông báo bởi khung trước — giờ duy trì các mốc khuôn mặt ổn định hơn qua các vòng quay và thay đổi ánh sáng. Mẫu phản hồi của cộng đồng nhất quán: các chuyển động đầu trước đây tạo ra biến dạng kỳ lạ giờ hoàn thành gọn gàng ở tốc độ phát lại thông thường.

Trước/sau trên một prompt Chế độ Tham chiếu duy nhất: "[@Image1] đi về phía máy quay qua một con hẻm đầy sương, khuôn mặt nhìn thấy rõ, quay nhẹ sang phải ở giây thứ 8, ánh đèn đường ấm từ trên."

1.0: đối tượng duy trì danh tính nhất quán trong khi đi bộ, sau đó khi quay sang phải tạo ra sự dịch chuyển đáng chú ý về chiều rộng hàm ở khung giữa vòng quay rồi giật lại khi hoàn thành.
1.5: vòng quay tương tự hoàn thành mà không có lỗi hiệu chỉnh. Tỷ lệ hàm và xương gò má duy trì trong suốt quá trình quay.

Điều này quan trọng nhất cho bất kỳ trường hợp sử dụng nào mà khuôn mặt của nhân vật là chủ đề chính — nội dung talking head, truyện kể do nhân vật dẫn dắt, demo sản phẩm có người phát ngôn, và bất kỳ clip nào sử dụng Chế độ Tham chiếu để neo danh tính nhất quán qua nhiều cảnh quay.

Mẹo

Tính nhất quán của nhân vật tích lũy trong Chế độ Extend. Ở phiên bản 1.5, một clip được mở rộng sẽ bảo tồn sự ổn định của các mốc khuôn mặt được thiết lập trong lần tạo ban đầu. Đường nối nơi phần mở rộng kết nối khó phát hiện hơn so với 1.0 vì cả hai đoạn giờ chia sẻ cùng một đường cơ sở hình học khuôn mặt.

Thay đổi 4: Extend from Frame — nối các clip đến độ dài phim ngắn

Chế độ Extend ở phiên bản 1.0 thêm khung hình vào cuối clip, nhưng bề mặt kiểm soát bị giới hạn: bạn đưa cho mô hình một clip và yêu cầu nó tiếp tục. Ở phiên bản 1.5, Extend from Frame thêm tính năng chọn khung hình rõ ràng — bạn chọn khung hình cuối cụ thể mà bạn muốn tiếp tục, và mô hình tiếp tục từ trạng thái hình ảnh chính xác đó: cùng vị trí đối tượng, cùng hướng ánh sáng, cùng quỹ đạo máy quay, cùng điều kiện khí quyển.

Sự khác biệt quan trọng khi một lần tạo cho ra phần mở đầu và giữa đúng nhưng các khung cuối lệch khỏi ý định của bạn. Ở phiên bản 1.0, một khung cuối không hoàn hảo có nghĩa là chấp nhận nó làm điểm khởi đầu cho phần mở rộng hoặc tạo lại toàn bộ clip. Ở phiên bản 1.5, bạn có thể chọn một khung từ sớm hơn trong lần tạo — khoảnh khắc bố cục sạch hơn mà bạn thực sự muốn tiếp tục — và mở rộng từ đó.

Quy trình làm việc thực tế cho các sản phẩm dài hơn:

Tạo đoạn mở đầu 15 giây. Xem lại, xác định khung kết thúc tốt nhất.
Sử dụng Extend from Frame, chọn khung đó, tạo 15 giây tiếp theo.
Lặp lại cho đến khi đạt thời lượng cần thiết.

Một chuỗi ba đoạn, mỗi đoạn 15 giây, tạo ra 45 giây cảnh quay với nhân vật, ánh sáng và trạng thái máy quay được duy trì qua các điểm nối. Đủ cho demo sản phẩm, quảng cáo ngắn hoặc chuỗi intro tường thuật — từ một mô hình tính phí theo giây ở mức 10–15 credit.

Ghi chú

Chế độ Extend trong OmniArt hoạt động trên nhiều mô hình, không chỉ Grok Imagine. Bạn có thể tạo phần mở đầu bằng một mô hình khác và sử dụng Extend from Frame của Grok Imagine 1.5 để tiếp tục, mang các cải tiến về tính nhất quán nhân vật đến footage có nguồn gốc từ nơi khác.

+52 Elo thực sự tương ứng với điều gì

Khoảng cách Arena được chia thành bốn thay đổi này, được đánh trọng số theo tần suất xuất hiện của mỗi thay đổi trong sản xuất hàng ngày:

Thay đổi	Tác động đến Elo	Nơi bạn cảm nhận
Tính tự nhiên của âm thanh	Cao	Bất kỳ clip nào có hội thoại hoặc âm nền nhiều lớp
Thời lượng 15g bản địa	Vừa phải	Định dạng mạng xã hội 15 giây; quy trình phụ thuộc Extend
Tính nhất quán khuôn mặt	Cao	Talking head, làm việc nhân vật Chế độ Tham chiếu, chuyển động đầu
Extend from Frame	Vừa phải	Sản xuất nhiều đoạn, clip được nối

Arena kiểm tra cụ thể image-to-video — một ảnh tĩnh đầu vào được hoạt họa. Trong bối cảnh đó, tính nhất quán khuôn mặt và tính tự nhiên của âm thanh là hai chất lượng mà người bỏ phiếu mù chú ý nhiều nhất, điều này giải thích phần lớn lợi nhuận Elo đến từ đâu. Thời lượng và Extend from Frame quan trọng hơn với những người dùng có kinh nghiệm xây dựng dự án nhiều cảnh quay so với người bỏ phiếu kiểm tra mù xem clip 5 giây.

Bạn có nên tạo lại các dự án 1.0 không?

Phiên bản ngắn: có với bất kỳ dự án nào mà khuôn mặt là chủ đề chính, và có với bất cứ thứ gì bạn xây dựng theo mẫu tạo-rồi-mở-rộng để đạt 15 giây. Với mọi thứ khác, quyết định phụ thuộc vào từng dự án cụ thể.

Tạo lại ngay nếu:

Bạn đã tạo clip talking head hoặc tập trung vào nhân vật trong phiên bản 1.0 và nhận thấy khuôn mặt bị lệch giữa clip. Các đầu vào Chế độ Tham chiếu tương tự sẽ cho kết quả sạch hơn đáng kể ở phiên bản 1.5.
Bạn đã xây dựng clip 15 giây dưới dạng 10g + 5g extend và gặp phải lỗi đường nối. Tạo bản địa 15 giây của phiên bản 1.5 loại bỏ điểm nối.
Âm thanh là rào cản cuối cùng trên một clip đã gần hoàn chỉnh. Ngữ điệu tự nhiên và âm nền nhiều lớp của phiên bản 1.5 giải quyết các phàn nàn phổ biến nhất mà không cần viết lại phần hình ảnh.

Không đáng tạo lại nếu:

Clip chỉ có chuyển động mà không có nhân vật hoặc hội thoại — trần chất lượng hình ảnh ở 720p không thay đổi, và các cải tiến hành vi Extend là không đáng kể đối với đầu ra đoạn đơn.
Bạn sử dụng nhiều Chế độ Modify — Modify vẫn tự động thu nhỏ bất kỳ đầu vào nào trên 854×480 xuống 480p trước khi xử lý, và hành vi đó không thay đổi ở phiên bản 1.5.
Bản gốc là cảnh B-roll không khí ngắn (dưới 8g) không có nhân vật. Cải tiến âm thanh nền là thật, nhưng không có khả năng biện minh cho việc tạo lại ở mức giá credit hiện tại.

Cảnh báo

Giới hạn thu nhỏ 480p của Chế độ Modify không thay đổi ở phiên bản 1.5. Nếu bạn cần chỉnh sửa clip 720p mà không bị mất độ phân giải, hãy thực hiện bước Modify trước lần tạo 720p cuối cùng, không phải sau.

Bắt đầu trên OmniArt

Grok Imagine 1.5 có sẵn trong không gian làm việc video của OmniArt cùng với V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 và Seedance 2.0. Không cần đăng ký xAI riêng — cùng số dư credit OmniArt bao gồm tất cả các mô hình.

Cách nhanh nhất để hiệu chỉnh phiên bản 1.5 là chạy một prompt mà bạn đã biết từ phiên bản 1.0. Cùng đầu vào, đầu ra cạnh nhau, với các cải tiến khuôn mặt và âm thanh ngay lập tức hiển thị so với đường cơ sở của bạn. Bắt đầu từ đó, rồi quyết định dự án 1.0 nào thực sự đáng tạo lại.

Để biết chi tiết đầy đủ về sáu chế độ, tính toán credit và các mẫu prompt Chế độ Tham chiếu, xem hướng dẫn Grok Imagine. Để so sánh nhiều mô hình nơi xếp hạng image-to-video của Grok Imagine phù hợp với bức tranh toàn cảnh 2026, danh sách các mô hình AI image-to-video tốt nhất có các xếp hạng hiện tại.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí