guideโมเดลและข้อมูลเชิงลึก6 min read
Journal · โมเดลและข้อมูลเชิงลึก

คู่มือ prompt GPT Image 2: โครงสร้าง ตัวอย่าง และควบคุมสไตล์

คู่มือ prompt ปฏิบัติ GPT Image 2 — โครงสร้างหกส่วน ข้อความหลายภาษา ห้า brief ทดสอบแล้ว และตำแหน่งโมเดลในปี 2026

ทีม OmniArt·
คู่มือ prompt GPT Image 2: โครงสร้าง ตัวอย่าง และควบคุมสไตล์

GPT Image 2 เป็นโมเดลที่ควรหยิบเมื่องานส่งมอบมี typography เป็นส่วนหนึ่ง Native 2K พร้อม upscale 4K ตัวเลือก ความแม่นข้อความ 95%+ ข้ามห้าสคริปต์ reasoning ต่อ prompt แบบชั้น และพื้นผิวแก้ไขภาษาธรรมชาติที่บอกการเปลี่ยนแปลงแล้วโมเดลแก้ให้ คู่มือนี้เป็น playbook โครงสร้าง — เทมเพลต prompt หกส่วน ห้า brief ทดสอบพร้อม prompt ต้นฉบับ และรายการตรง ๆ ว่าโมเดลยังตามใครไม่ทัน

GPT Image 2 คืออะไร

GPT Image 2 อยู่ใน OmniArt image workspace คู่ Nano Banana Pro Seedream 5.0 Lite และโมเดลภาพที่เหลือ เป็นรุ่นใหม่สุดในสายภาพของ OpenAI และตัวที่ครีเอเตอร์ใช้จริงเมื่อโปสเตอร์ ป้าย กราฟิกสไลด์ character sheet และ mockup UI ต้องลงตัวอักษรได้

สเปกค่า
Native resolution2K (4K ผ่าน upscale)
ความแม่นข้อความ95%+ หลายภาษา (Latin จีน ญี่ปุ่น เกาหลี อาหรับ)
Reasoningใช่ — ตีความ prompt แบบชั้น
แก้ไขภาษาธรรมชาติใช่ — อธิบายการเปลี่ยน โมเดลแก้
ช่วงอัตราส่วน3:1 ถึง 1:3
เวลา generationโดยทั่วไป 30–60 วินาที

จุดที่นำ จุดที่ตาม

ตารางคะแนนสั้น ๆ เทียบเพียร์ใกล้เคียงอย่างตรงไปตรงมา

ความสามารถGPT Image 2Nano Banana ProMidjourney V8
Native resolution2K (upscale 4K)4K2K (แฟลก --hd)
ความแม่นข้อความ95%+ หลายภาษา94–96%~80% เฉพาะ Latin
Reasoning ต่อ promptใช่จำกัดไม่
ความสม่ำเสมอตัวละครต่อเนื่องระดับพิกเซลแข็งแรงปานกลาง
แก้ไขภาษาธรรมชาติใช่จำกัดไม่
Photorealism (ผิว แสง)แข็งแรงแข็งกว่าแข็งแรง
ความละเอียดสไตล์ปานกลางปานกลางสูง (ฟิล์ม เลนส์)

แพทเทิร์น: GPT Image 2 ชนะเมื่องานมีข้อความ reasoning หรือการแก้ไข Nano Banana Pro นำเล็กน้อยบนเฟรม photoreal ดิบ Midjourney ยังชนะงาน art direction สไตล์สูงที่ชื่อฟิล์มและสเปกเลนส์ทำงานจริง

โครงสร้าง prompt หกส่วน

โครงสร้างที่สะอาดที่สุดลง GPT Image 2 ได้สะอาด

[สไตล์ / medium] + [subject] + [สภาพแวดล้อม / setting] + [แสง] + [composition] + [สเปกเทคนิค]

อ่านจากหนึ่งใน prompt ตัวอย่างที่ดีที่สุด:

"35mm film photography, warm natural window light. A young woman sitting in a vintage bookshop, reading a hardcover book. Soft afternoon sunlight filtering through dusty windows, casting warm golden light across the scene. Medium shot, slightly off-center composition with shallow depth of field. Aspect ratio 3:4."

brief เดียวครอบหกช่อง reasoning ของโมเดลให้ยัดมากขึ้นใน prompt เดียวกว่าโมเดลแข่ง — แต่โครงสร้างยังเป็นวินัยที่เปลี่ยน «มีไอเดีย» เป็น «ส่งงานได้ครั้งแรก»

ห้านิสัยที่คุ้ม

  1. เขียนเชิงพรรณนาเหมือน brief ผู้กำกับ รายการ keyword แพ้ประโยคเต็ม
  2. ใส่รายละเอียดสำคัญในห้าสิบคำแรก ขั้น reasoning ให้น้ำหนัก token ต้น ๆ มากกว่า
  3. ระบุข้อจำกัดเชิงลบชัด «No text overlay, no watermark, no border» น่าเชื่อถือกว่าหวังเอง
  4. ระบุอัตราส่วนภาพ ค่าเริ่มต้นเป็นสี่เหลี่ยมจัตุรัส ต้องการ 16:9 หรือ 3:4 ให้พูด
  5. วนซ้ำแบบสนทนา หลัง generation แรก ตามด้วยการแก้เจาะจง — «make the floor reflect more, push the figure 5% to the right» — แทน regenerate ใหม่ทั้งก้อน

ห้า brief ทดสอบพร้อม prompt ต้นฉบับ

แต่ละ prompt ด้านล่างรันจบแล้ว ใช้เป็นจุดเริ่ม ไม่ใช่สถานะสุดท้าย

1. ภาพบุคคลแบบภาพยนตร์

"Generate a cinematic portrait of a solitary figure standing in an intense orange-to-red gradient environment. Strong silhouette lighting from behind, deep shadow contrast, reflective glossy floor mirroring the figure. Symmetrical composition, minimal set design, no background clutter. The mood is contemplative and powerful, like a still from a Denis Villeneuve film. Aspect ratio 16:9."

สังเกต: silhouette สะอาด สะท้อนพื้นถูก gradient เรียบ ท่าทางมีน้ำหนัก

2. โปสเตอร์เมืองพร้อม typography

"A striking Spring 2026 city poster for New York with a bold contemporary design and an elegant celebratory mood. Clean off-white textured background with generous negative space. A miniature kayaker paddles across a narrow ribbon of reflective water in the lower-right corner. The wake sweeps upward in a dynamic calligraphic curve, gradually transforming into the Hudson River and then into a dreamlike hand-painted panorama of Manhattan. Inside the flowing river-shaped composition: the Empire State Building, Brooklyn Bridge, Central Park canopy, One World Trade Center, brownstone rooftops, yellow cabs, harbor ferries, and the Statue of Liberty in soft distance. Soft morning fog, golden spring light, subtle accents in navy and gold. Elegant typography in the lower left reads 'SPRING 2026' with a vertical slogan 'NEW YORK — A CITY OF BRIDGES, DREAMS, AND REINVENTION'. Text must be sharp and beautifully composed. Premium graphic design, aspect ratio 9:16."

สังเกต: อักษรอ่านได้ flow โค้ง S แลนด์มาร์กจำได้ negative space ตั้งใจ

3. Character reference sheet

"Create a professional character reference sheet for an original fantasy RPG character: a young female mage with silver hair and violet eyes, wearing an ornate dark cloak with glowing rune patterns. Include on a clean white background: a three-view turnaround showing front, side, and back; facial expression variations showing neutral, smiling, angry, and surprised; detailed breakdowns of costume and equipment pieces; a color palette swatch row; and brief world-building notes in clean typography. Organized grid layout, concept art style, high resolution. Aspect ratio 16:9."

สังเกต: ดีไซน์ตัวละครสม่ำเสมอข้ามมุม สีหน้าหลากหลาย palette ตรง label ข้อความถูก

4. Mockup UI / โซเชียลมีเดีย

"A hyper-realistic iPhone screenshot of a fictional Instagram profile page for Leonardo da Vinci, username @davinci_official, as if he were a modern influencer in 2026. Profile photo is a Renaissance self-portrait in a circle crop. Bio reads: 'Artist, Engineer, Inventor | Currently dissecting things | DM for commissions'. The grid shows 9 posts: the Mona Lisa reframed as a mirror selfie, a helicopter sketch captioned 'just dropped my new drone design', an anatomy study posted as a gym progress photo, The Last Supper staged as a dinner party group shot, and other creative anachronistic mashups. Follower count: 12.4M. Story highlights labeled Sketches, Inventions, and Florence Life. Complete iOS status bar with carrier text reading 'Renaissance 5G', battery icon, and current time. Dark mode UI throughout. Photorealistic screenshot quality, aspect ratio 9:16."

สังเกต: องค์ประกอบ iOS ถูก caption อ่านได้ ระยะ grid สม่ำเสมอ รายละเอียด status bar ใช้งานได้

5. แนวคิด editorial / ทดลอง

"Inside a museum exhibit titled 'Ancient Technology: The Desktop Era', a programmer in a glass display case is live-demonstrating coding on a CRT monitor while amazed schoolchildren press their faces against the glass. The exhibit placard reads: 'Homo Developerus (c. 2005) — Primitive human using keyboard-based input devices.' A second display case nearby shows a physical book labeled 'Stack Overflow — Print Edition, Vol. 1 of 4,827'. 2D cartoon illustration style, warm museum lighting, humorous and nostalgic tone. Aspect ratio 16:9."

สังเกต: อารมณ์ขำผ่านรายละเอียด ข้อความหลายบรรทัดอ่านได้ สไตล์ภาพประกอบสอดคล้อง

ควบคุมสไตล์: อะไรได้ อะไรไม่

GPT Image 2 รับทิศทางสไตล์ภาษาธรรมชาติดีกว่าการยัด keyword สามแพทเทิร์นที่ route ได้เสถียร:

เป้าหมายทิศทางที่ใช้ได้
ลุคภาพยนตร์เฉพาะอ้างผู้กำกับหรือภาพยนตร์ («like a Villeneuve still»)
สุนทรีย์งานพิมพ์ตั้งชื่อประเพณี typography («Swiss design», «Art Deco border»)
ภาพถ่าย editorialตั้งชื่อ medium และเลนส์ («medium-format film», «85mm portrait lens»)

สองแพทเทิร์นที่ไม่ได้ผล:

  • ยัดคำคุณศัพท์สไตล์หลายตัว («dreamy ethereal cinematic photoreal hyperrealistic») โมเดลเฉลี่ยเป็นพวง mush
  • ขอโลโก้แบรนด์ตรง ๆ การทำซ้ำโลโก้ไม่น่าเชื่อถือ วางโลโก้หลัง composite

แก้ไขโดยไม่ regenerate

พื้นผิวแก้ไขภาษาธรรมชาติของ GPT Image 2 คือคุณค่าส่วนใหญ่เมื่อเฟรมแรกถูกแล้ว สองแพทเทิร์นที่ควรรู้:

  • แก้เจาะจง «Move the chair to the right by about 10% of the frame» ใช้ได้ «Make it better» ไม่ได้
  • เธรด iteration การแก้แต่ละครั้งต่อผลลัพธ์ก่อนหน้า รักษาเธรดสำหรับความสม่ำเสมอตัวละครหรือสินค้าข้ามชุดถ่าย

ข้อจำกัดอย่างตรงไปตรงมา

  • การทำซ้ำโลโก้ไม่น่าเชื่อถือ composite โลโก้ที่แน่นอนหลังงาน
  • ความเร็ว generation 30–60 วินาที ช้ากว่า flagship 5–10 วินาที วางแผน iteration
  • rate limit ฟรีแน่น ~2 ภาพ/วันบน free tier Plus หรือ API สำหรับ production
  • ควบคุมสไตล์ละเอียดกว่า Midjourney ไม่ได้ ปรับฟิล์มและเลนส์แม่นเท่าไม่ได้
  • นโยบายเนื้อหาเข้มกว่า บาง brief ที่ผ่าน Midjourney ถูกปฏิเสธที่นี่

Tip

งานปริมาณสูงที่ typography สำคัญแต่ส่วนที่เหลือของภาพไม่ render pass ข้อความบน GPT Image 2 และ pass ภาพถ่ายบน Nano Banana Pro แล้ว composite ถูกและคมกว่าบังคับโมเดลใดโมเดลหนึ่งทำทั้งคู่

เริ่มต้นบน OmniArt

GPT Image 2 อยู่ใน OmniArt image workspace คู่ Nano Banana Pro Seedream 5.0 Lite HappyHorse 1.0 และที่เหลือ เครดิตเดียวกัน prompt thread เดียวกัน สลับโมเดลแล้ว render เปรียบเทียบ

เริ่มจาก brief ภาพบุคคลแบบภาพยนตร์ด้านบนเพื่อรู้สึกโครงสร้าง แล้วไป brief โปสเตอร์เมืองเมื่ออยากทด typography

สำหรับการเลือกโมเดลต่อโมเดล GPT Image 2 vs Nano Banana 2 เดินหกรอบ brief ตัวต่อตัว ถ้าเลือกระหว่าง Seedream 5.0 Lite กับ GPT Image 2 สำหรับงาน reasoning หนัก คู่มือ prompt Seedream 5.0 Lite ครอบคลุมด้านนั้นของตัวเลือก

Start creating

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI