Guía de prompts GPT Image 2: estructura, ejemplos y control de estilo
Guía práctica de prompts para GPT Image 2 — estructura en seis partes, texto multilingüe, cinco briefs probados y dónde encaja el modelo en 2026.

GPT Image 2 es el modelo al que recurrir cuando la tipografía forma parte del entregable. 2K nativo con upscaling opcional a 4K, más del 95% de precisión de texto en cinco escrituras, razonamiento sobre instrucciones en capas y una superficie de edición en lenguaje natural para refinar describiendo el cambio. Esta guía es el playbook estructural: la plantilla de prompt en seis partes, cinco briefs probados con prompts literales y la lista honesta de dónde el modelo aún va por detrás.
Qué es GPT Image 2
GPT Image 2 está en el espacio de imagen de OmniArt junto a Nano Banana Pro, Seedream 5.0 Lite y el resto del roster. Es el más reciente del linaje de imagen de OpenAI, y el que los creadores usan cuando pósters, señalización, gráficos de diapositivas, hojas de personaje y mockups de UI necesitan tipografía correcta.
| Especificación | Valor |
|---|---|
| Resolución nativa | 2K (4K vía upscale) |
| Precisión de texto | 95%+ multilingüe (latín, chino, japonés, coreano, árabe) |
| Razonamiento | Sí — interpretación de prompts en capas |
| Edición en lenguaje natural | Sí — describes el cambio, el modelo edita |
| Rango de relación de aspecto | 3:1 a 1:3 |
| Tiempo de generación | 30–60 s típico |
Dónde lidera, dónde va por detrás
Un scorecard breve y honesto frente a los pares más cercanos.
| Capacidad | GPT Image 2 | Nano Banana Pro | Midjourney V8 |
|---|---|---|---|
| Resolución nativa | 2K (upscale 4K) | 4K | 2K (flag --hd) |
| Precisión de texto | 95%+ multilingüe | 94–96% | ~80% solo latín |
| Razonamiento sobre prompts | Sí | Limitado | No |
| Consistencia de personaje | Secuencial a nivel de píxel | Fuerte | Moderada |
| Edición en lenguaje natural | Sí | Limitada | No |
| Fotorrealismo (piel, luz) | Fuerte | Más fuerte | Fuerte |
| Granularidad de estilo | Moderada | Moderada | Alta (película, lente) |
El patrón: GPT Image 2 gana cuando el brief lleva texto, razonamiento o edición. Nano Banana Pro le gana en fotogramas fotorrealistas brutos. Midjourney sigue ganando en dirección de arte muy estilizada donde stocks de película y especificaciones de lente importan de verdad.
La estructura de prompt en seis partes
La estructura más limpia encaja bien en GPT Image 2.
[Estilo / medio] + [sujeto] + [entorno / escenario] + [iluminación] + [composición] + [especificaciones técnicas]
Leyendo uno de los mejores prompts de ejemplo:
"35mm film photography, warm natural window light. A young woman sitting in a vintage bookshop, reading a hardcover book. Soft afternoon sunlight filtering through dusty windows, casting warm golden light across the scene. Medium shot, slightly off-center composition with shallow depth of field. Aspect ratio 3:4."
Ese brief cubre las seis ranuras. La superficie de razonamiento permite empaquetar más en un prompt que en modelos competidores, pero la estructura sigue siendo la disciplina que convierte «tengo una idea» en «esto es enviable a la primera».
Cinco hábitos que compensan
- Escribe de forma descriptiva, como un brief de director. Las listas de keywords rinden peor que frases completas.
- Antepón los detalles importantes en las primeras 50 palabras. El paso de razonamiento pondera más los tokens iniciales.
- Usa restricciones negativas explícitas. «Sin texto superpuesto, sin marca de agua, sin borde» es más fiable que esperar.
- Especifica relación de aspecto. Por defecto es cuadrado. Si necesitas 16:9 o 3:4, dilo.
- Itera en conversación. Tras la primera generación, sigue con ediciones dirigidas — «que el suelo refleje más, mueve la figura un 5% a la derecha» — en lugar de regenerar desde cero.
Cinco briefs probados con prompts literales
Cada prompt debajo lo hemos ejecutado de punta a punta. Úsalos como punto de partida, no como estado final.
1. Retrato cinematográfico
"Generate a cinematic portrait of a solitary figure standing in an intense orange-to-red gradient environment. Strong silhouette lighting from behind, deep shadow contrast, reflective glossy floor mirroring the figure. Symmetrical composition, minimal set design, no background clutter. The mood is contemplative and powerful, like a still from a Denis Villeneuve film. Aspect ratio 16:9."
Qué vigilar: siluetas limpias, reflejo de suelo correcto, gradientes suaves, postura con peso.
2. Póster de ciudad con tipografía
"A striking Spring 2026 city poster for New York with a bold contemporary design and an elegant celebratory mood. Clean off-white textured background with generous negative space. A miniature kayaker paddles across a narrow ribbon of reflective water in the lower-right corner. The wake sweeps upward in a dynamic calligraphic curve, gradually transforming into the Hudson River and then into a dreamlike hand-painted panorama of Manhattan. Inside the flowing river-shaped composition: the Empire State Building, Brooklyn Bridge, Central Park canopy, One World Trade Center, brownstone rooftops, yellow cabs, harbor ferries, and the Statue of Liberty in soft distance. Soft morning fog, golden spring light, subtle accents in navy and gold. Elegant typography in the lower left reads 'SPRING 2026' with a vertical slogan 'NEW YORK — A CITY OF BRIDGES, DREAMS, AND REINVENTION'. Text must be sharp and beautifully composed. Premium graphic design, aspect ratio 9:16."
Qué vigilar: tipografía legible, flujo en S de la composición, hitos reconocibles, espacio negativo intencional.
3. Hoja de referencia de personaje
"Create a professional character reference sheet for an original fantasy RPG character: a young female mage with silver hair and violet eyes, wearing an ornate dark cloak with glowing rune patterns. Include on a clean white background: a three-view turnaround showing front, side, and back; facial expression variations showing neutral, smiling, angry, and surprised; detailed breakdowns of costume and equipment pieces; a color palette swatch row; and brief world-building notes in clean typography. Organized grid layout, concept art style, high resolution. Aspect ratio 16:9."
Qué vigilar: diseño consistente entre vistas, expresiones variadas, paleta coherente, etiquetas de texto correctas.
4. Mockup UI / red social
"A hyper-realistic iPhone screenshot of a fictional Instagram profile page for Leonardo da Vinci, username @davinci_official, as if he were a modern influencer in 2026. Profile photo is a Renaissance self-portrait in a circle crop. Bio reads: 'Artist, Engineer, Inventor | Currently dissecting things | DM for commissions'. The grid shows 9 posts: the Mona Lisa reframed as a mirror selfie, a helicopter sketch captioned 'just dropped my new drone design', an anatomy study posted as a gym progress photo, The Last Supper staged as a dinner party group shot, and other creative anachronistic mashups. Follower count: 12.4M. Story highlights labeled Sketches, Inventions, and Florence Life. Complete iOS status bar with carrier text reading 'Renaissance 5G', battery icon, and current time. Dark mode UI throughout. Photorealistic screenshot quality, aspect ratio 9:16."
Qué vigilar: elementos UI iOS precisos, captions legibles, espaciado de grid, barra de estado funcional.
5. Concepto editorial / experimental
"Inside a museum exhibit titled 'Ancient Technology: The Desktop Era', a programmer in a glass display case is live-demonstrating coding on a CRT monitor while amazed schoolchildren press their faces against the glass. The exhibit placard reads: 'Homo Developerus (c. 2005) — Primitive human using keyboard-based input devices.' A second display case nearby shows a physical book labeled 'Stack Overflow — Print Edition, Vol. 1 of 4,827'. 2D cartoon illustration style, warm museum lighting, humorous and nostalgic tone. Aspect ratio 16:9."
Qué vigilar: humor visual por detalle, texto multilínea legible, estilo de ilustración cohesionado.
Control de estilo: qué funciona y qué no
GPT Image 2 entiende mejor la dirección de estilo en lenguaje natural que el spam de keywords. Tres patrones que enrutan bien:
| Objetivo | Dirección que funciona |
|---|---|
| Look cinematográfico concreto | Referencia a director o película por nombre («como un fotograma de Villeneuve») |
| Estética de diseño impreso | Nombra la tradición tipográfica («diseño suizo», «borde Art Deco») |
| Fotografía editorial | Nombra medio y lente («película formato medio», «retrato 85mm») |
Dos patrones que no:
- Apilar muchos adjetivos de estilo («dreamy ethereal cinematic photoreal hyperrealistic»). El modelo los promedia en papilla.
- Pedir un logo de marca exacto. La reproducción de logo es poco fiable; compón el logo en post.
Editar sin regenerar
La superficie de edición en lenguaje natural de GPT Image 2 es gran parte del valor cuando el primer fotograma ya está bien. Dos patrones:
- Ediciones dirigidas. «Mueve la silla un 10% del encuadre a la derecha» funciona. «Hazlo mejor» no.
- Hilos de iteración. Cada edición es seguimiento de la salida anterior. Mantén el hilo para consistencia de personaje o producto en una sesión.
Limitaciones honestas
- La reproducción de logo es poco fiable. Compón el logo exacto después.
- La generación tarda 30–60 s. Más lento que flagships de 5–10 s. Planifica la iteración.
- Límites de tasa en tier gratuito ajustados. ~2 imágenes/día en free; Plus o API para producción.
- Control de estilo menos granular que Midjourney. No puedes afinar stock de película y lente con la misma precisión.
- Política de contenido más estricta. Más ajustada que alternativas open source; algunos briefs que pasan en Midjourney se rechazan aquí.
Tip
En trabajo de alto volumen donde la tipografía es crítica pero el resto de la imagen no, renderiza el pase de tipo en GPT Image 2 y el pase fotográfico en Nano Banana Pro, luego compón. Más barato y más nítido que pedir a cualquiera de los dos que haga ambos.
Empezar en OmniArt
GPT Image 2 vive en el espacio de imagen de OmniArt junto a Nano Banana Pro, Seedream 5.0 Lite, HappyHorse 1.0 y el resto. Mismo saldo de créditos, mismo hilo de prompt: cambia de modelo y vuelve a renderizar para comparar.
Empieza con el brief de retrato cinematográfico de arriba para sentir la estructura, luego pasa al póster de ciudad cuando quieras probar tipografía.
Para la decisión modelo vs modelo, la comparación GPT Image 2 vs Nano Banana 2 recorre seis rondas cara a cara. Si eliges entre Seedream 5.0 Lite y GPT Image 2 para trabajo con mucho razonamiento, la guía de prompts Seedream 5.0 Lite cubre ese lado del selector.