Guía de redacción de prompts para GPT Image 2: 7 reglas para una tasa de acierto del 90%
2026/04/23

Guía de redacción de prompts para GPT Image 2: 7 reglas para una tasa de acierto del 90%

Guía práctica de redacción de prompts para GPT Image 2 a partir de más de 200 generaciones. Las 7 reglas, la estructura, las keywords y los antipatrones para acertar a la primera.

Si has probado GPT Image 2 y te ha dado la sensación de que se salta la mitad del prompt, el problema casi nunca es el modelo — es cómo está escrito el prompt. Después de hacer más de 200 generaciones y comparar una matriz de tasas de acierto, las mismas 7 reglas explican la diferencia entre "me funciona a la primera" y "cinco reintentos hasta que me he rendido".

Esta es una guía práctica de redacción de prompts para GPT Image 2. Cada regla de abajo es algo que puedes aplicar a tu próximo prompt en 30 segundos.

Por qué fallan la mayoría de prompts de GPT Image 2

Tres patrones explican alrededor del 80% de los fallos:

  1. Tratar a GPT Image 2 como si fuera Stable Diffusion — meter al prompt una sopa de keywords tipo masterpiece, 8k, ultra detailed, high quality. Esos tokens son ruido para GPT Image 2.
  2. Escribir frases largas sin estructura — una única oración interminable en inglés/español con todo revuelto. GPT Image 2 lee estructura; te devuelve estructura.
  3. Olvidarse de entrecomillar el texto — decir el titular dice oferta limitada es muchísimo menos fiable que decir el titular dice "Oferta limitada". Las comillas lo cambian todo.

Si arreglas solo esos tres puntos, tu tasa de acierto se duplica. Abajo van las 7 reglas en detalle.

Regla 1: estructura tu prompt — sujeto, escena, estilo, texto, cámara

Un prompt fiable de GPT Image 2 tiene 5 componentes ordenados:

ComponenteQué va aquíEjemplo
SujetoEl objeto o personaje principala white stainless steel water bottle
EscenaFondo y entornoon a beige linen tablecloth, soft indoor light
EstiloMood visual y referenciaeditorial product photography, premium feel
TextoTodo el texto sobre la imagen entre comillastop-left red badge: "50% off"
CámaraLente, ángulo, iluminación45-degree side light, shallow depth of field

Júntalos con comas. Un prompt completo queda así:

A white stainless steel water bottle, on a beige linen tablecloth,
soft indoor light, editorial product photography, premium feel,
top-left red badge "50% off", bottom black bold text
"Daily Commute Companion", 45-degree side light, shallow depth of field.

Esta estructura funciona porque GPT Image 2 es un modelo de lenguaje — sigue el orden narrativo. Orden aleatorio = salida aleatoria.

Regla 2: entrecomilla cada pieza de texto que vaya en la imagen

Esta es la regla con mayor palanca. La diferencia entre:

the headline says limited offerthe headline reads "Limited Offer"

es de 30-40 puntos porcentuales en la precisión de renderizado de texto. ¿Por qué? Las comillas le dicen al modelo "esta cadena exacta es la que tienes que renderizar", en lugar de "describe el concepto de oferta limitada".

Lo mismo aplica a texto no latino:

❌ 标题写限时五折 ✅ 标题写 "限时五折"

Cuando hay varios elementos de texto:

Headline at top reads "2026 Spring Collection",
subhead reads "30% Off Sitewide",
bottom-left small text reads "Code: SPRING30",
right-side vertical text reads "Limited Time".

Cada pieza entrecomillada, cada ubicación especificada.

Regla 3: especifica la posición de cada elemento

GPT Image 2 entiende muy bien el lenguaje espacial — pero solo si se lo das.

Vago: a logo and some text on the image Preciso: a circular logo in the top-left corner, three lines of text in the bottom-right corner

Vocabulario espacial que funciona de forma fiable:

  • top-left / top-right / top-center / bottom-left / bottom-right / bottom-center
  • centered / vertically centered / horizontally centered
  • foreground / midground / background
  • above the headline / below the subhead / next to the icon

Cuando tengas 3 o más elementos, cada elemento lleva ubicación. Sin excepciones.

Regla 4: restringe el negativo — di qué NO quieres

Los modelos de difusión tenían un campo explícito de "prompt negativo". GPT Image 2 no, pero entiende restricciones en lenguaje natural:

... no text on the bottle itself,
no shadows on the background,
no other objects in frame,
no watermark.

Los antipatrones son especialmente útiles para:

  • Eliminar marcas de agua (no watermark, no logo overlay)
  • Limpiar fondos cargados (solid plain background, no decorations)
  • Evitar manos o dedos de más (hands clearly visible, anatomically correct)
  • Prevenir la sobredecoración (minimalist, no extra ornaments)

Aproximadamente 1 de cada 5 reintentos se elimina dedicando 10 segundos a escribir lo que no quieres.

Regla 5: ancla el estilo con una referencia, no con adjetivos

"Bonito", "espectacular", "increíble" no le dicen nada al modelo. Las referencias concretas se lo dicen todo.

Débil: a beautiful illustration of a girl Fuerte: a Studio Ghibli style illustration of a girl, soft watercolor textures, warm color palette

Anclas de estilo de alta palanca:

CategoríaEjemplos de ancla
IlustraciónStudio Ghibli, Pixar, Cartoon Network 2010s, Adventure Time, Genshin Impact
FotografíaWes Anderson, Annie Leibovitz, National Geographic, editorial Vogue, Kodak Portra 400
Pinturaimpresionismo de Monet, postimpresionismo de Van Gogh, realismo de Hopper, ukiyo-e
Modernoestética Y2K, vaporwave, diseño brutalista, patrón Memphis, Bauhaus
CinematográficoWong Kar-wai, Christopher Nolan, paleta de A24, Blade Runner 2049

El modelo conoce esas referencias. Úsalas.

Regla 6: fija cámara e iluminación con vocabulario fotográfico real

Para resultados fotorrealistas, la diferencia entre aficionado y pro está en el vocabulario de cámara.

Principiante: a realistic photo of a coffee cup on a desk Pro:

A coffee cup on a wooden desk, shot on Sony A7R IV, 35mm f/2.8 lens,
shallow depth of field, soft natural window light from the left,
golden hour color temperature, slight film grain.

Términos de cámara que mejoran el realismo de forma demostrable:

  • Lente: 35mm, 50mm, 85mm portrait lens, wide-angle 24mm, macro 100mm
  • Apertura: f/1.4, f/2.8, shallow depth of field, deep focus
  • Cuerpo: Sony A7R IV, Canon EOS R5, Leica M11, Hasselblad medium format
  • Luz: golden hour, blue hour, softbox studio lighting, Rembrandt lighting, rim light
  • Película: Kodak Portra 400, Fujifilm Velvia, Ilford HP5 black and white

No son adornos — son instrucciones técnicas que el modelo sabe interpretar.

Regla 7: itera con ediciones dirigidas, no con regeneraciones completas

Aquí es donde la mayoría de usuarios tira el 70% de su presupuesto de API.

Flujo malo:

Genera → no está perfecto → ajusta el prompt → regenera desde cero → la composición
cambia → lloras → repite 5 veces.

Flujo bueno:

Genera → no está perfecto → "in this image, change [X] to [Y],
keep everything else identical" → listo.

GPT Image 2 soporta edición dirigida multi-turno que preserva el resto de la imagen. Este es su mayor ahorro de coste.

Ejemplos de prompts de edición dirigida efectivos:

"Change the model's jacket from navy to beige. Keep face,
background, lighting, and pose unchanged."

"Replace the headline text with 'Spring Sale'. Keep all other
text, layout, and styling identical."

"Remove the watermark in the bottom-right corner. Keep
everything else exactly the same."

La frase "keep everything else identical" es la fórmula mágica. No te la saltes.

Juntándolo todo: un prompt real completo

Aquí tienes un prompt que usa las 7 reglas a la vez. Es para una imagen hero de e-commerce:

A white stainless steel insulated water bottle, standing upright
on a beige linen tablecloth, with soft window light from the left
at 45 degrees, premium minimalist product photography style.

Top-left red rectangular badge reads "Limited 50% Off",
top-right gold circular badge reads "24h Hot/Cold",
below the bottle bold black headline reads "Daily Commute Companion",
bottom-center small text reads "Tap to Shop".

Shot on Sony A7R IV, 50mm f/2.8 lens, shallow depth of field,
clean composition, no other objects in frame, no watermarks,
1:1 aspect ratio.

Un prompt así suele producir un resultado utilizable al primer o segundo intento, en lugar de los 5-7 reintentos que necesitarías con un prompt vago.

Antipatrones habituales al escribir prompts para GPT Image 2

Una lista corta de cosas que conviene dejar de hacer ya:

AntipatrónPor qué fallaQué hacer en su lugar
Aglomeración de keywords masterpiece, 8k, ultra detailedRuido para GPT Image 2Usa anclas de estilo reales (Regla 5)
Una sola oración sin comasDifícil de parsear estructuralmente para el modeloUsa la estructura de 5 componentes (Regla 1)
Describir el texto por concepto (a sale headline)No renderiza las palabras correctasEntrecomilla siempre la cadena exacta (Regla 2)
Prompts en idiomas mezclados sin intenciónEl modelo se lía con qué idioma renderizarUsa un solo idioma para las instrucciones y entrecomilla el idioma objetivo para el texto en la imagen
Megaprompts de 50 líneasRendimientos decrecientes pasados ~15 specsLimítate a 10-15 specs y usa ediciones dirigidas para refinar
No mencionar la relación de aspectoEl default del modelo varíaAcaba siempre con 1:1 / 16:9 / 9:16 aspect ratio

Checklist rápido antes de pulsar Generar

Antes de enviar cualquier prompt de GPT Image 2, repasa:

  • ¿Tiene los 5 componentes (sujeto, escena, estilo, texto, cámara)?
  • ¿Cada pieza de texto sobre la imagen está entrecomillada?
  • ¿Cada elemento tiene una ubicación especificada?
  • ¿He excluido lo que no quiero?
  • ¿El estilo está anclado a una referencia real?
  • ¿Cámara e iluminación están especificadas (para foto)?
  • ¿La relación de aspecto va al final?

Si las 7 casillas están marcadas, tu tasa de acierto sube al ~90%.

¿Te quieres ahorrar el escribir?

Si quieres prompts de GPT Image 2 ya redactados para copiar y pegar directamente, échale un ojo a gpt-image2.art/explore — cada imagen de ejemplo tiene su prompt original visible, organizada por caso de uso (e-commerce, redes, diseño de personajes, fotografía, infografías, carteles).

Lecturas recomendadas

Free to try

Generate your first image with GPT Image 2 — right now

Reliable non-Latin text rendering, directed editing, and 50+ ready-to-use prompts. No downloads — just open in your browser.