guideบทสอนและคู่มืออ่าน 6 นาที

8 prompt สำหรับ Grok Imagine ที่ใช้ได้จริง

Prompt พร้อมคัดลอกใช้งาน 8 รายการสำหรับ Grok Imagine 1.5 ทั้งภาพและวิดีโอ สร้างขึ้นจากรูปแบบภาษาธรรมชาติของ FLUX.1 ด้วยโครงสร้าง Subject + Action + Camera + Style + Audio พร้อมอธิบายผลลัพธ์และเหตุผลที่แต่ละ prompt ได้ผล ใช้งานใน OmniArt ได้ทันที

ทีม OmniArt9 มิ.ย. 2569

Grok Imagine 1.5 อัปเกรดฐานโมเดลภาพเป็น FLUX.1 จาก Black Forest Labs และการเปลี่ยนแปลงนี้มีผลโดยตรงต่อวิธีเขียน prompt โมเดลตอบสนองต่อคำอธิบายในภาษาธรรมชาติเหมือนช่างภาพอ่านบรีฟงาน ไม่ใช่การแยกวิเคราะห์รายการคีย์เวิร์ดแบบโมเดลเก่า prompt ทั้งแปดด้านล่างนี้พร้อมคัดลอกใช้ได้ทันที นำไปวางใน Grok Imagine workspace ของ OmniArt ปรับรายละเอียดให้เหมาะกับงาน แล้วกด Generate แต่ละรายการมีข้อความ prompt ที่แน่นอน ผลลัพธ์ที่ได้ และหมายเหตุด้านเทคนิคว่าทำไมโครงสร้างนั้นถึงได้ผล

สำหรับทฤษฎี prompt ทั่วไปสำหรับทุกโมเดลของ OmniArt ดูได้ที่ วิธีเขียน prompt ที่ดีกว่า สำหรับรายละเอียดเชิงลึกเกี่ยวกับโหมดการสร้างทั้งหกของ Grok Imagine และการคำนวณต้นทุน ดูได้ที่ คู่มือ Grok Imagine สำหรับนักสร้างสรรค์ บทความนี้เน้นเฉพาะ Grok Imagine 1.5 ซึ่งเป็นรุ่น FLUX.1 และเทคนิค prompt ที่โมเดลนี้ตอบสนองได้ดีที่สุด

สิ่งที่ Grok Imagine 1.5 เปลี่ยนแปลงในการเขียน prompt

โมเดลพื้นฐาน FLUX.1 ถูกฝึกสอนแตกต่างจากสถาปัตยกรรม text-to-image รุ่นก่อน โมเดลนี้แยกวิเคราะห์ประโยคต่อเนื่องได้ดีและมักตอบสนองน้อยต่อการใส่คีย์เวิร์ดกองซ้อนกัน ห้านิสัยเหล่านี้ช่วยยกระดับคุณภาพได้อย่างน่าเชื่อถือที่สุด

ภาษาธรรมชาติแทนการกองคีย์เวิร์ด ประโยคสมบูรณ์ให้ผลดีกว่าคำคุณศัพท์คั่นด้วยจุลภาค "ถนนในช่วงแสงสีน้ำเงิน มีแสงจากป้ายร้านสะดวกซื้อส่องเรือง" ดีกว่า "ถนน กลางคืน นีออน ภาพยนตร์ 4K"
การอ้างอิงเฉพาะเจาะจงแทนคำคุณศัพท์คลุมเครือ "ถ่ายด้วย Fujifilm XT4, 23mm f/2" บอกข้อมูลกับโมเดลได้มากกว่า "ภาพถ่ายคุณภาพสูง" ชื่ออุปกรณ์เฉพาะและประเภทฟิล์มมีน้ำหนักจริงในพื้นที่แฝง
คำอธิบายสีที่ชัดเจนแทน "สีสันสดใส" "น้ำเงินไฟฟ้าและชมพูสด" สร้างจานสีที่ตั้งใจไว้ ส่วน "สีสันสดใส" สร้างแค่สัญญาณรบกวนที่เฉลี่ยออกมา
เวลาที่แน่นอนแทน "ชั่วโมงทอง" "ปลายตุลาคม เวลา 17:45 น. ดวงอาทิตย์อยู่เหนือขอบฟ้า 6°" บอกโมเดลถึงมุมและความอบอุ่นของแสงที่แม่นยำ ส่วน "ชั่วโมงทอง" มีความหมายกำกวมตามฤดูกาลและละติจูด
โครงสร้างวิดีโอ: Subject + Action + Camera + Style + Audio วางหัวเรื่องหลักและการกระทำไว้ใน 20-30 คำแรก การโฟกัสสไตล์เดียวดีกว่าผสมหลายสไตล์ ทำซ้ำแบบค่อยเป็นค่อยไป เปลี่ยนตัวแปรหนึ่งตัวต่อการสร้างหนึ่งครั้งจนกว่าผลลัพธ์จะคงที่ แล้วจึงพัฒนาต่อ

สำหรับการวิเคราะห์เชิงลึกเกี่ยวกับคลังศัพท์ภาพยนตร์ที่นำไปใช้กับวิดีโอได้ คู่มือ prompt วิดีโอ AI แบบภาพยนตร์ ครอบคลุมการเลือกเลนส์ การเคลื่อนกล้องที่มีแรงจูงใจ และภาษาแสงสว่างอย่างละเอียด

8 prompt

1. ภาพถ่ายสินค้าแบบภาพยนตร์ (ภาพ)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

ผลลัพธ์ที่ได้: ภาพนิ่งที่สะอาดตาและมีการกำกับงานศิลป์ ดูเหมือนภาพถ่ายสินค้ามืออาชีพมากกว่าภาพที่สร้างโดย AI

ทำไมถึงได้ผล: การอ้างอิง Fujifilm XT4 ตรึงวิทยาศาสตร์สีและการเรนเดอร์เซนเซอร์ไว้กับลุคจากโลกจริงที่เฉพาะเจาะจง มุมแสงถูกระบุเป็นตัวเลข ซึ่งป้องกันไม่ให้โมเดลใช้แสงกระจายจากด้านบนเป็นค่าเริ่มต้น การจำกัดจานสีไว้ที่สองสี ได้แก่ ไฮไลต์อำพันอุ่นและเงาเทาน้ำเงินเย็น ป้องกันไม่ให้โมเดลเพิ่มสีที่สามเข้ามาแข่งขัน

2. ภาพระยะใกล้ตัวละครพร้อมเสียง (วิดีโอ)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

ผลลัพธ์ที่ได้: ฉากตัวละครพร้อมเสียงดั้งเดิมของ Grok Imagine 1.5 โมเดลสร้างบทสนทนา การซิงค์ริมฝีปาก และเสียงแวดล้อมในการประมวลผลครั้งเดียว

ทำไมถึงได้ผล: บทพูดสั้นพอที่จะซิงค์ริมฝีปากได้อย่างสวยงามภายใน 8 วินาที แหล่งแสงนีออนสองจุดที่แยกกันและมีชื่อ (ชมพูด้านบน, เขียวน้ำทะเลจากขวา) ให้แผนที่แสงที่ชัดเจนกับโมเดลและป้องกันการเฉลี่ยแบบ "เมืองนีออน" ทั่วไป "ไม่ใช่ดราม่าแบบภาพยนตร์" เป็นข้อจำกัดเชิงลบที่นำทางบรรยากาศได้แม่นยำกว่าคำคุณศัพท์เชิงบวก

เคล็ดลับ

ในคลิปที่สั้นกว่า 10 วินาที ให้จำกัดบทพูดไว้ที่หนึ่งหรือสองประโยคสั้น บทพูดที่ยาวเกินไปจะเต็มระยะเวลาที่มีอยู่ และโมเดลอาจเร่งการพูดหรือตัดเสียงก่อนกำหนด

3. สภาพแวดล้อมที่มีบรรยากาศ — คลิป ambient (วิดีโอ)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

ผลลัพธ์ที่ได้: คลิป ambient สำหรับสร้างบรรยากาศ เหมาะเป็นฟุตเทจพื้นหลัง เนื้อหาสำหรับช่วงเปลี่ยนฉาก หรือฉากเปิดเรื่อง

ทำไมถึงได้ผล: "ต้นเดือนพฤศจิกายน เวลา 7 โมงเช้า" แม่นยำกว่า "เช้าหมอก" การดันกล้องถูกอธิบายว่า "แทบไม่รู้สึก" และ "ล่องลอยเหมือนลมหายใจ" ซึ่งสื่อถึงจังหวะได้แม่นยำกว่า "ดันกล้องช้าๆ ไปข้างหน้า" การขอให้ไม่มีดนตรีป้องกันไม่ให้เสียงใช้เพลงประกอบโดยค่าเริ่มต้น โมเดลจะสร้าง ambient จริงๆ ในสไตล์การบันทึกในพื้นที่แทน

4. วิดีโอโซเชียลแนวตั้งจังหวะเร็ว — เปิดตัวสินค้า (วิดีโอ)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

ผลลัพธ์ที่ได้: คลิปโซเชียล 9:16 ที่กระแทกใจ สร้างมาสำหรับ TikTok, Reels หรือ Shorts เป็นการเปิดตัวสินค้าด้วยการตัดต่อเร็วพร้อมเสียงดั้งเดิม

ทำไมถึงได้ผล: การระบุ 9:16 ตั้งแต่ต้นกำหนดอัตราส่วนภาพก่อนทุกอย่างใน prompt ไทม์ไลน์ถูกเขียนไว้อย่างชัดเจน ("0–2s / 2–8s") ซึ่งช่วยให้โมเดลกำหนดจังหวะสองช่วงได้ถูกต้องแทนที่จะรวมเป็นการเคลื่อนไหวเดียว การระบุชื่อเหตุการณ์เสียงเฉพาะ (เสียงกระแทก, เสียง synthesizer) สร้าง sound design ที่ตั้งใจมากกว่า "เพิ่มเสียงเอฟเฟกต์"

คำเตือน

คลิป Grok Imagine 1.5 ยาวได้สูงสุด 15 วินาที สำหรับเนื้อหาโซเชียลให้จำกัดคลิปไว้ที่ 8–10 วินาทีสูงสุด โมเดลจะสร้างการเคลื่อนไหวที่สวยงามที่สุดในช่วงนั้น และหน้าต่างความสนใจของแพลตฟอร์มโซเชียลก็สั้น ที่ความละเอียด 720p คลิป 8 วินาทีใช้ 120 เครดิตใน OmniArt

5. ภาพประกอบสไตล์ (ภาพ)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

ผลลัพธ์ที่ได้: ภาพประกอบกราฟิกสีจำกัดที่ดูเหมือนกระบวนการพิมพ์จริงมากกว่างานศิลปะดิจิทัลทั่วไป

ทำไมถึงได้ผล: การระบุชื่อเทคนิคการพิมพ์ (Risograph) และข้อจำกัดเฉพาะของมัน (สีหมึกสองสี รูปทรงแบน ไม่มีไล่เฉดสี หมึกเหลื่อมทะเบียน) ให้บรีฟทางเทคนิคที่สมบูรณ์แก่โมเดล "การเหลื่อมทะเบียนของหมึก" คือรายละเอียดกระบวนการทางกายภาพที่ตรึงผลลัพธ์ไว้กับความสวยงามในโลกจริง เทียบเท่ากับการระบุชนิดฟิล์มใน FLUX.1 หากไม่มีสิ่งนี้ โมเดลมักจะเพิ่มไล่เฉดสีหรือผสมสีเข้าด้วยกัน

6. การเคลื่อนกล้องแบบไดนามิก — pull-back ด้วยโดรน (วิดีโอ)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

ผลลัพธ์ที่ได้: ช็อตการเปิดเผยยาว 15 วินาที ซึ่งเป็นความยาวคลิปสูงสุดของโมเดล สร้างรอบการเคลื่อนกล้องที่มีแรงจูงใจเพียงครั้งเดียว

ทำไมถึงได้ผล: prompt นี้ใช้ระยะเวลา 15 วินาทีทั้งหมดสำหรับการเคลื่อนไหวต่อเนื่องครั้งเดียว ซึ่งเป็นวิธีที่น่าเชื่อถือที่สุดในการได้ผลลัพธ์สะอาดในระยะเวลานั้น การถอยกล้องถูกจำกัดไว้ที่ความสูงคงที่ (ไม่เอียง) ซึ่งป้องกันไม่ให้โมเดลสร้างแกนกล้องที่สองขึ้นเองและสร้างการเคลื่อนไหวที่กระตุก "สี LOG style, vignette เลนส์เบาๆ" เข้ารหัสลุคกล้องจริงโดยไม่ต้องระบุชื่ออุปกรณ์เฉพาะ

7. แฟชั่นสไตล์ — ภาพบุคคลจากฟิล์ม (ภาพ)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

ผลลัพธ์ที่ได้: ภาพบุคคลในสไตล์ฟิล์มอนาล็อกพร้อมการเรนเดอร์สีวินเทจที่แม่นยำ ได้แก่ เกรนจริง halation และการเปลี่ยนสีจากฟิล์มหมดอายุ

ทำไมถึงได้ผล: "Kodak Portra 400 หมดอายุ" เป็นหนึ่งในการอ้างอิงสไตล์ประโยคเดียวที่แข็งแกร่งที่สุดในพื้นที่แฝงของภาพ มันนำพาชุดความคาดหวังทางสีโทนทั้งหมด การระบุการเปลี่ยนสี ("สีเขียวเลื่อนไปทางเหลือง-มะกอกเล็กน้อย") ป้องกันเกรนวินเทจทั่วไปและนำทางการบิดเบือนจานสีที่แม่นยำที่เกี่ยวข้องกับฟิล์มหมดอายุ การตัดแบบแน่นและอัตราส่วนภาพเฉพาะ (4:5) สร้างภาพบุคคลที่ดูเหมือนรูปพิมพ์จริง

8. สภาพแวดล้อมที่ดื่มด่ำ — ฝน (วิดีโอ)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

ผลลัพธ์ที่ได้: คลิปสภาพแวดล้อมแบบดื่มด่ำจากมุมมองเดียว แข็งแกร่งทั้งในฐานะช็อตเปิดเรื่องหรือผลงานบรรยากาศที่ยืนหยัดได้เอง

ทำไมถึงได้ผล: "ปลายมิถุนายน เวลา 22:00 น." ระบุฤดูกาลที่แน่นอน ความรู้สึกด้านอุณหภูมิ (ฝนร้อนชื้นฤดูร้อน) และระดับความมืด นักปั่นจักรยานที่ผ่านไปถูกวางไว้เป็นเหตุการณ์เฉพาะในช่วงเวลาเฉพาะ ("ประมาณ 2 วินาทีในช่วงกลางคลิป") ซึ่งให้จุดยึดเชิงเรื่องราวกับโมเดลโดยไม่ต้องขอการกระทำตัวละครที่ซับซ้อน เสียงถูกแบ่งเป็นสามเลเยอร์แยกกัน (ฝนบนกระจก เสียงยางรถไกลๆ มอเตอร์ไซค์) ซึ่งมีแนวโน้มให้ sound design ที่รอบคอบกว่าคำสั่ง "เสียงฝนในเมือง" เพียงคำเดียว

การใช้งานบน OmniArt

prompt ทั้งแปดรันบน Grok Imagine 1.5 ใน workspace การสร้างสรรค์ของ OmniArt โดยไม่ต้องสมัครสมาชิก xAI แยกต่างหาก prompt ภาพ (1, 5, 7) ไปที่ image workspace ส่วน prompt วิดีโอ (2, 3, 4, 6, 8) ไปที่ video workspace ใต้ Grok Imagine

บันทึกเชิงปฏิบัติสำหรับการรันใน OmniArt

เริ่มที่ 480p สำหรับการทดสอบซ้ำ ที่ 480p วิดีโอใช้ 10 เครดิตต่อวินาที เมื่อโครงสร้างถูกต้องแล้วค่อยเปลี่ยนเป็น 720p (15 เครดิตต่อวินาที) สำหรับเทคสุดท้าย
ใช้ Extend Mode เพื่อเพิ่มความยาว คลิป ambient (prompt 3) และ pull-back โดรน (prompt 6) สามารถขยายได้สูงสุด 15 วินาทีเพิ่มเติมโดยใช้ Extend Mode ของ Grok Imagine โมเดลเดิมคิดเครดิตเฉพาะส่วนที่เพิ่มเข้ามาเท่านั้น
ใช้ Modify Mode สำหรับการแก้ไขเฉพาะจุด หากแสงในผลลัพธ์เกือบถูกต้องแต่มีองค์ประกอบหนึ่งที่ผิดพลาด Modify Mode ช่วยให้อธิบายการเปลี่ยนแปลงเป็นข้อความโดยไม่ต้องสร้างคลิปใหม่ทั้งหมด เก็บคลิปต้นฉบับไว้ที่ 480p ก่อนส่งไปยัง Modify โหมดนี้จำกัดอินพุตที่ 854×480
ความสอดคล้องของตัวละครในหลายช็อต: หากกำลังสร้างหลายช็อตของตัวละครเดิม (สไตล์ prompt 2) ให้ใช้ Reference Mode พร้อม headshot เป็น @Image1 และระบุคำอธิบายตัวละครใหม่ในแต่ละ prompt ใหม่ Reference Mode ของ Grok Imagine 1.5 เป็นเส้นทางตรงที่สุดสู่ความสอดคล้องโดยไม่ต้องพึ่งโมเดลที่ fine-tune แล้ว

สำหรับการวิเคราะห์ครบถ้วนของโหมดการสร้างทั้งหกของ Grok Imagine สถานการณ์ต้นทุน และเวลาที่ควรเปลี่ยนไปใช้โมเดลอื่น ดูได้ที่ คู่มือ Grok Imagine ฉบับสมบูรณ์ สำหรับคลังศัพท์ภาพยนตร์ที่กว้างขึ้นซึ่งนำไปใช้กับ prompt วิดีโอใดก็ได้ คู่มือ prompt วิดีโอ AI แบบภาพยนตร์ คู่ควรกับการบุ๊กมาร์กไว้ควบคู่กับบทความนี้

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี