Hướng dẫn prompt GPT Image 2: cấu trúc, ví dụ và kiểm soát phong cách
Playbook prompt GPT Image 2 — cấu trúc sáu phần, chữ đa ngôn ngữ, năm brief đã test, và khi nào chọn model này năm 2026.

GPT Image 2 là model nên chọn khi typography là một phần deliverable. 2K gốc (upscale 4K), độ chính xác chữ 95%+ qua năm script, reasoning trên prompt phân lớp, và bề mặt sửa bằng ngôn ngữ tự nhiên. Bài này: template sáu phần, năm brief nguyên văn đã chạy, và danh sách thật nơi model còn kém.
GPT Image 2 là gì
Trong workspace ảnh OmniArt cạnh Nano Banana Pro, Seedream 5.0 Lite và roster còn lại. Dòng ảnh mới nhất OpenAI — creator dùng khi poster, biển, slide, character sheet, mockup UI cần chữ đúng.
| Spec | Giá trị |
|---|---|
| Độ phân giải gốc | 2K (4K upscale) |
| Chữ | 95%+ đa ngôn ngữ (Latin, Trung, Nhật, Hàn, Ả Rập) |
| Reasoning | Có |
| Sửa ngôn ngữ tự nhiên | Có |
| Tỷ lệ | 3:1 tới 1:3 |
| Thời gian | 30–60s thường gặp |
Dẫn và kém
| Khả năng | GPT Image 2 | Nano Banana Pro | Midjourney V8 |
|---|---|---|---|
| Độ phân giải | 2K (4K upscale) | 4K | 2K (--hd) |
| Chữ | 95%+ đa ngôn ngữ | 94–96% | ~80% Latin |
| Reasoning | Có | Hạn chế | Không |
| Nhất quán nhân vật | Pixel-level tuần tự | Mạnh | Trung bình |
| Sửa NL | Có | Hạn chế | Không |
| Chân thực da/ánh sáng | Mạnh | Mạnh hơn | Mạnh |
| Kiểm soát style | Trung bình | Trung bình | Cao (film stock, lens) |
GPT Image 2 thắng khi brief cần chữ, reasoning hoặc sửa. Nano Banana Pro hơn frame chân thực thuần. Midjourney vẫn mạnh art direction có film stock/lens cụ thể.
Cấu trúc prompt sáu phần
[Style/medium] + [chủ thể] + [bối cảnh] + [ánh sáng] + [bố cục] + [spec kỹ thuật]
Ví dụ hay:
"35mm film photography, warm natural window light. A young woman sitting in a vintage bookshop, reading a hardcover book. Soft afternoon sunlight filtering through dusty windows, casting warm golden light across the scene. Medium shot, slightly off-center composition with shallow depth of field. Aspect ratio 3:4."
Năm thói quen
- Viết như brief đạo diễn, không spam từ khóa.
- Đưa chi tiết quan trọng vào 50 từ đầu.
- Negative constraint rõ: "No text overlay, no watermark."
- Nêu aspect ratio.
- Lặp bằng sửa có mục tiêu, không regenerate từ đầu.
Năm brief đã test
1. Chân dung điện ảnh
"Generate a cinematic portrait of a solitary figure standing in an intense orange-to-red gradient environment. Strong silhouette lighting from behind, deep shadow contrast, reflective glossy floor mirroring the figure. Symmetrical composition, minimal set design, no background clutter. The mood is contemplative and powerful, like a still from a Denis Villeneuve film. Aspect ratio 16:9."
Chú ý: silhouette sạch, phản chiếu sàn, gradient mượt.
2. Poster thành phố có typography
"A striking Spring 2026 city poster for New York with a bold contemporary design and an elegant celebratory mood. Clean off-white textured background with generous negative space. A miniature kayaker paddles across a narrow ribbon of reflective water in the lower-right corner. The wake sweeps upward in a dynamic calligraphic curve, gradually transforming into the Hudson River and then into a dreamlike hand-painted panorama of Manhattan. Inside the flowing river-shaped composition: the Empire State Building, Brooklyn Bridge, Central Park canopy, One World Trade Center, brownstone rooftops, yellow cabs, harbor ferries, and the Statue of Liberty in soft distance. Soft morning fog, golden spring light, subtle accents in navy and gold. Elegant typography in the lower left reads 'SPRING 2026' with a vertical slogan 'NEW YORK — A CITY OF BRIDGES, DREAMS, AND REINVENTION'. Text must be sharp and beautifully composed. Premium graphic design, aspect ratio 9:16."
3. Character reference sheet
"Create a professional character reference sheet for an original fantasy RPG character: a young female mage with silver hair and violet eyes, wearing an ornate dark cloak with glowing rune patterns. Include on a clean white background: a three-view turnaround showing front, side, and back; facial expression variations showing neutral, smiling, angry, and surprised; detailed breakdowns of costume and equipment pieces; a color palette swatch row; and brief world-building notes in clean typography. Organized grid layout, concept art style, high resolution. Aspect ratio 16:9."
4. Mockup UI / social
"A hyper-realistic iPhone screenshot of a fictional Instagram profile page for Leonardo da Vinci, username @davinci_official, as if he were a modern influencer in 2026. Profile photo is a Renaissance self-portrait in a circle crop. Bio reads: 'Artist, Engineer, Inventor | Currently dissecting things | DM for commissions'. The grid shows 9 posts: the Mona Lisa reframed as a mirror selfie, a helicopter sketch captioned 'just dropped my new drone design', an anatomy study posted as a gym progress photo, The Last Supper staged as a dinner party group shot, and other creative anachronistic mashups. Follower count: 12.4M. Story highlights labeled Sketches, Inventions, and Florence Life. Complete iOS status bar with carrier text reading 'Renaissance 5G', battery icon, and current time. Dark mode UI throughout. Photorealistic screenshot quality, aspect ratio 9:16."
5. Khái niệm biên tập
"Inside a museum exhibit titled 'Ancient Technology: The Desktop Era', a programmer in a glass display case is live-demonstrating coding on a CRT monitor while amazed schoolchildren press their faces against the glass. The exhibit placard reads: 'Homo Developerus (c. 2005) — Primitive human using keyboard-based input devices.' A second display case nearby shows a physical book labeled 'Stack Overflow — Print Edition, Vol. 1 of 4,827'. 2D cartoon illustration style, warm museum lighting, humorous and nostalgic tone. Aspect ratio 16:9."
Kiểm soát phong cách
| Mục tiêu | Hướng hiệu quả |
|---|---|
| Look điện ảnh | Tham chiếu đạo diễn/phim |
| In ấn | Truyền thống typographic ("Swiss design") |
| Editorial | Medium + lens ("medium-format film", "85mm portrait") |
Tránh: chồng nhiều tính từ style; yêu cầu logo thương hiệu chính xác — composite sau.
Sửa không regenerate
- Sửa có mục tiêu: "Move the chair to the right by about 10% of the frame."
- Giữ thread cho nhất quán nhân vật/sản phẩm.
Hạn chế thật
- Logo không đáng tin.
- 30–60s — chậm hơn flagship 5–10s.
- Free tier ~2 ảnh/ngày.
- Style ít granular hơn Midjourney.
- Content policy chặt hơn open-source.
Tip
Typography quan trọng, phần còn lại không: pass chữ GPT Image 2 + pass ảnh Nano Banana Pro rồi composite — thường rẻ và sắc hơn.
Bắt đầu trên OmniArt
Bắt brief chân dung điện ảnh, rồi poster thành phố test typography. So model: GPT Image 2 vs Nano Banana 2. Reasoning-heavy: Seedream 5.0 Lite.