Cách viết prompt Seedance: phương pháp Vibe Creating
Tìm hiểu phương pháp Vibe Creating để viết prompt Seedance trên OmniArt: cấu trúc bốn lớp, khi nào nên tin vào mô hình, và ví dụ so sánh trước-sau.

Hầu hết mọi người viết prompt Seedance theo kiểu viết báo cáo kỹ thuật máy quay: tiêu cự, kỹ thuật di chuyển gimbal, số cảnh quay, nhiệt độ màu. Nghe có vẻ chính xác, nhưng thường cho ra những video cứng nhắc, bị kiểm soát quá mức. Đội ngũ Seedance đang quảng bá một cách tiếp cận khác mà họ gọi là Vibe Creating — và ý tưởng cốt lõi khá phản trực giác: một mô hình đủ năng lực cần bạn thể hiện ý định, chứ không phải quản lý từng chi tiết thực thi.
Bài hướng dẫn này phân tích phương pháp Vibe Creating thành những bước bạn có thể áp dụng ngay trong lần tạo video tiếp theo. Bạn sẽ học được cấu trúc prompt bốn lớp, lý do tại sao "tin vào mô hình" hiệu quả hơn việc chồng chất hướng dẫn, ngôn ngữ máy quay nào cần bỏ và cái nào nên giữ, và khi nào thì cần kiểm soát chính xác. Seedance 2.0 (phiên bản tiêu chuẩn và nhanh) có sẵn trên OmniArt cùng với các mô hình video khác, vì vậy bạn có thể thử nghiệm mọi ý tưởng trong bài này ngay khi đọc.
Ghi chú
Các clip ví dụ trong bài này lấy từ sổ tay thực hành "Vibe Creating" của Seedance do ByteDance phát hành. Chúng được đưa vào để minh họa phương pháp viết prompt — các nguyên tắc tương tự áp dụng cho tất cả các mô hình video có đạo diễn trên OmniArt, không chỉ riêng Seedance.
Vibe Creating thực sự có nghĩa là gì
Vibe Creating là sự thay đổi về phân công vai trò. Thói quen cũ xem mô hình như một bộ render thụ động cần được chỉ định từng thông số. Vibe Creating xem nó như một cộng sự có năng lực: bạn truyền đạt cảm xúc và ý định, rồi để mô hình tự xử lý các chi tiết hình ảnh.
Điều đó không có nghĩa là viết ít hơn vì mục đích viết ít, và cũng không có nghĩa là viết prompt mơ hồ. Một prompt kiểu "tự do" hay "cảm giác cao cấp" không cho mô hình bất kỳ điểm neo nào. Mục tiêu là cắt bỏ những nhiễu kỹ thuật không có giá trị và giữ lại — hoặc bổ sung — những thông tin thực sự tạo nên một cảnh quay tốt: chúng ta đang nhìn vào ai hay vật gì, điều gì đang xảy ra, và cảm giác của cảnh đó nên như thế nào.
Cấu trúc prompt bốn lớp
Xương sống của một prompt Seedance mạnh là bốn lớp thông tin. Khi một cảnh tạo ra có vẻ nhạt nhẽo hoặc chung chung, gần như chắc chắn là vì thiếu một trong các lớp này.
| Lớp | Nội dung | Ví dụ |
|---|---|---|
| Điểm neo hình ảnh | Chủ thể hoặc yếu tố quan trọng nhất | "Một người cao tuổi trong chiếc áo bông sờn cũ"; "một con phố neon trong mưa" |
| Hành động hoặc trạng thái | Điều nó đang làm, hoặc trạng thái của nó — chọn một | "từ từ quay mặt về phía máy quay"; "mưa vệt xuống trên kính" |
| Sắc thái cục bộ | Cảm giác của cảnh này, chỉ cần một hoặc hai từ | "ánh sáng amber ấm áp từ phía sau"; "một chút lắc nhẹ của máy quay cầm tay" |
| Chủ đề video | Mục đích sử dụng cùng với phong cách hình ảnh của tác phẩm | "một đoạn phim ngắn về sự chia tay"; "cinematic game cyberpunk" |
Bạn không cần phải tự hỏi qua tất cả bốn lớp mỗi lần. Hãy xem đó như danh sách kiểm tra để tìm lý do tại sao một cảnh cảm thấy phẳng: thường thì điểm neo hình ảnh hoặc hành động bị thiếu, và chỉ cần thêm đúng lớp đó là đủ để sửa.
Đây là sự khác biệt trong thực tế. Cả hai prompt bên dưới đều mô tả cùng một ý tưởng — một người trong toa tàu điện ngầm bị ngập nước biển với một con cá voi bên ngoài — nhưng prompt thứ hai điền đầy đủ bốn lớp thay vì chỉ đặt tên cho cảnh đó.
Prompt thông thường: "Một người đứng trong toa tàu điện ngầm ngập đầy nước biển, một con cá voi bơi qua cửa sổ bên ngoài, yên tĩnh và ngột ngạt."
Vibe Creating: "Bên trong một toa tàu điện ngầm chìm nửa người trong nước biển, một người đứng lặng yên. Không gian nội thất thấm đẫm ánh sáng xanh dương sâu thẳm của đáy nước; tay vịn, ghế ngồi và cửa sổ đều ướt đẫm trong sự tĩnh lặng lạnh lẽo, ẩm ướt. Bên ngoài, thế giới đã trở thành đại dương sâu thẳm, và một con cá voi khổng lồ từ từ lướt qua cửa sổ, thân hình đồ sộ của nó che tối cả toa tàu khi đi qua."
Prompt thông thường
Vibe Creating
Cả hai đều là các prompt hợp lệ. Nhưng prompt thứ hai cung cấp cho mô hình sắc thái (ánh sáng xanh dương sâu, sự tĩnh lặng lạnh lẽo) và một hành động rõ ràng (cá voi lướt qua), vì vậy kết quả mang đúng cảm xúc mà người sáng tạo thực sự muốn hướng đến.
Tin vào mô hình — cung cấp lượng thông tin phù hợp
Lỗi phổ biến nhất là kiểm soát quá mức: chồng chất các thông số với niềm tin rằng càng nhiều hướng dẫn thì càng trung thực với ý định. Thực tế, để mô hình có không gian tự quyết định sẽ tạo ra chuyển động mượt mà hơn, chuyển cảnh tự nhiên hơn, và kết quả điện ảnh hơn.
So sánh hai cách tiếp cận cùng một ý tưởng — một cậu bé claymation vấp ngã và rơi qua một đường hầm siêu thực xuyên qua các thế giới. Prompt đầu tiên khóa chặt phong cách, màu sắc, ống kính và các cue nhạc. Prompt thứ hai mô tả trải nghiệm và để mô hình tự đạo diễn.
Prompt thông thường: "Phong cách hình ảnh: thẩm mỹ stop-motion claymation. Đường phố thực tế: màu xám lạnh, sắc thái trầm. Cảnh rơi: nhấp nháy hỗn loạn, bùng nổ màu sắc khắp nơi. Bãi cỏ đích đến: ánh nắng chói, sắc thái retro bình yên. Cảnh quay ống kính méo, 85mm, dolly move. Nhạc nền: nhạc piano tối giản mở đầu, synth thử nghiệm dần tăng lên."
Vibe Creating: "Trên một con phố chiều tẻ nhạt, một cậu bé claymation với chiếc balo phình to đi cúi đầu, mải mê đá một viên sỏi. Không cảnh báo, cậu trượt chân vào một cái miệng cống mở toang, tối đen. Khi lao xuống — gió rít, không trọng lực, khuôn mặt kinh hoàng — các biển hiệu neon cyberpunk, sứa biển sâu phát sáng, các hành tinh xa xôi và tinh vân vô trọng lực lướt qua trong một làn sóng hỗn loạn. Đúng vào khoảnh khắc trước khi mọi thứ quay cuồng mất kiểm soát, tiếng ồn và sự rơi biến mất trong một nhịp duy nhất."
Prompt thông thường
Vibe Creating
Một câu chuyện phong phú hơn không có nghĩa là một danh sách hướng dẫn dài hơn. Ví dụ tiếp theo cho thấy bạn có thể giữ ý định máy quay — miễn là nó phục vụ câu chuyện thay vì chỉ định thiết bị.
Prompt thông thường: "Cảnh 1: ống kính prime 85mm f1.4, tương phản +10, vignette +15. Cảnh 2: tracking move ở 0.7x. Cảnh 3: medium shot, chủ thể bên trái, nhiệt độ màu 4200K. Một quầy sửa đồng hồ trong con hẻm cũ; một người cao tuổi đeo kính đọc đang vặn núm đồng hồ bỏ túi; một đứa trẻ mặc đồng phục học sinh chạy đến cầm theo đường táo đỏ; người cao tuổi đưa chiếc đồng hồ hoạt hình vừa sửa xong cho cậu bé."
Vibe Creating: "Tại quầy sửa đồng hồ trong một con hẻm cũ, một người cao tuổi đeo kính đọc cúi người trên chiếc đồng hồ bỏ túi sờn cũ. Máy quay bắt đầu hơi cao và gần, dõi theo đôi bàn tay chăm chú của ông. Một đứa cháu chạy vào cầm theo đường táo đỏ, và máy quay theo những bước chân nhẹ nhàng, nhanh nhẹn của đứa trẻ. Người cao tuổi ngước nhìn, mỉm cười, và đưa chiếc đồng hồ hoạt hình vừa sửa xong. Một cảnh medium shot dừng lại ở sợi dây kết nối giữa hai người — ấm áp, hoài niệm, với sự thân thuộc của một con hẻm cũ đã trải qua nhiều năm tháng."
Prompt thông thường
Vibe Creating
Ngôn ngữ máy quay: cái gì nên bỏ, cái gì nên giữ
Ngôn ngữ máy quay không phải hoàn toàn xấu. Bí quyết là phân biệt những hướng dẫn nói với hệ thống cách quay với ý định nói với người xem cảm nhận như thế nào.
Nên bỏ những cái này — chúng là điều khiển kỹ thuật ít giá trị, giam cầm mô hình:
- Tiêu cự và giá trị milimét
- Thuật ngữ vị trí máy quay và thiết bị rig, camera A/B, coverage
- Thông số di chuyển và hệ số tốc độ
- Số cảnh quay
- Độ sâu trường ảnh, khẩu độ, phơi sáng, tốc độ màn trập
- Hướng dẫn biên tập thuần túy
Giữ và chuyển đổi những cái này — ý định máy quay định hình cảm xúc:
- Đổi "dolly chậm vào" thành "ánh nhìn bị kéo đến gần hơn, một cảm giác áp lực nhẹ nhàng"
- Đổi "cầm tay" thành "một sự lắc nhẹ, bất an"
- Giữ lại bất cứ điều gì nói với người xem họ nên cảm nhận gì, diễn đạt như một kết quả chứ không phải một cài đặt
Mục tiêu không phải là loại bỏ tất cả ngôn ngữ chuyển động — mà là diễn đạt nó như một trải nghiệm mà mô hình có thể diễn giải, không phải một con số nó phải tuân theo.
Giữ nguyên các ràng buộc cứng của bạn
Vibe Creating viết lại hình ảnh, không bao giờ là những thứ bạn chỉ định rõ ràng. Hội thoại, lời dẫn chuyện, lời bài hát, cue nhạc và hiệu ứng âm thanh là các ràng buộc cứng. Nếu bạn đã viết chúng, hãy giữ nguyên từng chữ — sắp xếp lại thứ tự nếu cần, nhưng đừng để việc "tối ưu hóa" prompt diễn giải lại hoặc bỏ mất chúng.
Một mẫu thực tế: khi hình ảnh và âm thanh được trộn lẫn trong một prompt, hãy viết lại mô tả hình ảnh một cách tự do, nhưng tách riêng các dòng chính xác và cue âm thanh ra và giữ nguyên từng chữ.
Khi nào không nên dùng Vibe Creating
Vibe Creating mạnh nhất cho bầu không khí, cảm xúc, cảm giác tường thuật và liên tưởng hình ảnh. Đây là công cụ sai khi công việc có tiêu chuẩn giao nhận nghiêm ngặt. Hãy dùng điều khiển chính xác ở mức thông số khi bạn cần:
- Khớp môi chính xác từng chữ trong một đoạn hội thoại dài
- Hướng dẫn tính năng, demo giao diện, hoặc video hướng dẫn từng bước
- Sản xuất công nghiệp theo danh sách cảnh quay cố định và thông số đã khóa
Trong những trường hợp đó, sự chính xác chính là điểm mấu chốt. Dùng Vibe Creating cho những cảnh quay mà cảm xúc quan trọng hơn thông số, và chuyển chế độ một cách có chủ đích cho phần còn lại.
Bắt đầu trên OmniArt
Bạn có thể áp dụng điều này ngay bây giờ. Seedance 2.0 — cả phiên bản tiêu chuẩn và nhanh — có sẵn trên không gian tạo video của OmniArt, cùng với các mô hình video có đạo diễn khác mà bạn có thể áp dụng phương pháp tương tự.
Cách bắt đầu đơn giản:
- Viết điểm neo hình ảnh và một hành động trước — đó là cột sống của cảnh quay.
- Thêm một từ sắc thái và một chủ đề để mô hình biết phong cách và mục đích sử dụng.
- Xóa tiêu cự, số cảnh quay và thuật ngữ thiết bị. Chuyển đổi bất kỳ chuyển động máy quay nào thành cách nó nên cảm thấy.
- Giữ nguyên hội thoại, lời dẫn và cue nhạc của bạn đúng như đã viết.
Nếu bạn đang theo dõi hướng đi của AI video có đạo diễn, bài phân tích của chúng tôi về những gì được ra mắt trong Seedance 2.5 bao gồm các tính năng tạo cảnh đơn dài hơn và quy trình làm việc đa tham chiếu giúp phong cách viết prompt này càng trở nên hữu ích hơn. Mở không gian làm việc, viết bốn lớp trung thực, và để mô hình đạo diễn phần còn lại.
Sẵn sàng sáng tạo?
Bắt đầu tạo nội dung tuyệt vời bằng AI