2026/04/23

GPT Image 2 Prompt-Guide: 7 Regeln für 90 % Trefferquote

Ein praxisnaher Prompt-Guide für GPT Image 2 aus über 200 Generierungen. Die 7 Regeln, Struktur, Keywords und Anti-Patterns für One-Shot-Erfolg.

Wenn du GPT Image 2 ausprobiert hast und das Gefühl hattest, dass es die Hälfte deines Prompts ignoriert, liegt das fast nie am Modell — sondern daran, wie der Prompt geschrieben ist. Nach über 200 Generierungen und einer Hit-Rate-Matrix sind es immer dieselben 7 Regeln, die den Unterschied machen zwischen "klappt beim ersten Versuch" und "fünf Retries, bis ich aufgegeben habe".

Das hier ist ein praxisnaher Prompt-Guide für die KI-Bildgenerierung mit GPT Image 2. Jede Regel unten lässt sich in 30 Sekunden auf den nächsten Prompt anwenden.

Warum die meisten GPT-Image-2-Prompts scheitern

Drei Muster verursachen rund 80 % aller Prompt-Fehlversuche:

GPT Image 2 wie Stable Diffusion behandeln — den Prompt mit masterpiece, 8k, ultra detailed, high quality zustopfen. Diese Tokens sind für GPT Image 2 nur Rauschen.
Unstrukturierte Bandwurmsätze schreiben — alles in einem langen Satz auf Englisch oder Chinesisch durcheinanderwerfen. GPT Image 2 liest Struktur; Struktur liest sich auch zurück.
Texte nicht in Anführungszeichen setzen — the headline says limited offer ist deutlich unzuverlässiger als the headline says "Limited Offer". Die Anführungszeichen ändern alles.

Wenn du nur diese drei Punkte fixt, verdoppelt sich deine Trefferquote. Die 7 Regeln im Detail kommen jetzt.

Regel 1: Strukturiere deinen Prompt — Subjekt, Szene, Stil, Text, Kamera

Ein verlässlicher GPT-Image-2-Prompt hat 5 geordnete Komponenten:

Komponente	Was reingehört	Beispiel
Subjekt	Das Hauptobjekt oder die Hauptfigur	`a white stainless steel water bottle`
Szene	Hintergrund und Umgebung	`on a beige linen tablecloth, soft indoor light`
Stil	Visuelle Stimmung und Referenz	`editorial product photography, premium feel`
Text	Aller On-Image-Text in Anführungszeichen	`top-left red badge: "50% off"`
Kamera	Objektiv, Winkel, Licht	`45-degree side light, shallow depth of field`

Verkette sie mit Kommas. Ein kompletter Prompt sieht so aus:

A white stainless steel water bottle, on a beige linen tablecloth,
soft indoor light, editorial product photography, premium feel,
top-left red badge "50% off", bottom black bold text
"Daily Commute Companion", 45-degree side light, shallow depth of field.

Diese Struktur funktioniert, weil GPT Image 2 ein Sprachmodell ist — es folgt narrativer Reihenfolge. Zufällige Reihenfolge = zufälliger Output.

Regel 2: Setze jeden On-Image-Text in Anführungszeichen

Das ist die hebelstärkste einzelne Regel. Der Unterschied zwischen:

Falsch: the headline says limited offer Richtig: the headline reads "Limited Offer"

ist eine Trefferquoten-Lücke von 30–40 Prozentpunkten beim Textrendering. Warum? Die Anführungszeichen sagen dem Modell "genau diesen String renderst du" — statt "beschreibe das Konzept eines Limited Offer".

Dasselbe gilt für nicht-lateinischen Text:

Falsch: 标题写限时五折 Richtig: 标题写 "限时五折"

Wenn du mehrere Textelemente hast:

Headline at top reads "2026 Spring Collection",
subhead reads "30% Off Sitewide",
bottom-left small text reads "Code: SPRING30",
right-side vertical text reads "Limited Time".

Jedes Stück in Anführungszeichen, jede Position spezifiziert.

Regel 3: Gib für jedes Element eine Position an

GPT Image 2 versteht räumliche Sprache gut — aber nur, wenn du sie ihm gibst.

Vage: a logo and some text on the image Präzise: a circular logo in the top-left corner, three lines of text in the bottom-right corner

Räumliches Vokabular, das verlässlich funktioniert:

top-left / top-right / top-center / bottom-left / bottom-right / bottom-center
centered / vertically centered / horizontally centered
foreground / midground / background
above the headline / below the subhead / next to the icon

Bei 3+ Elementen bekommt jedes Element eine Position. Keine Ausnahmen.

Regel 4: Setze negative Constraints — sag, was du NICHT willst

Diffusionsmodelle hatten explizite "Negative Prompt"-Felder. GPT Image 2 hat das nicht, versteht aber Constraints in normaler Sprache:

... no text on the bottle itself,
no shadows on the background,
no other objects in frame,
no watermark.

Anti-Patterns sind besonders nützlich, um:

Wasserzeichen zu entfernen (no watermark, no logo overlay)
Unruhige Hintergründe zu bereinigen (solid plain background, no decorations)
Zusatzhände oder -finger zu vermeiden (hands clearly visible, anatomically correct)
Über-Gestaltung zu unterbinden (minimalist, no extra ornaments)

Rund jeder fünfte Retry lässt sich vermeiden, indem du 10 Sekunden investierst, um aufzuschreiben, was du nicht willst.

Regel 5: Verankere den Stil mit einer Referenz, nicht mit Adjektiven

"Beautiful" "stunning" "amazing" sagen dem Modell nichts. Verankerte Referenzen sagen ihm alles.

Schwach: a beautiful illustration of a girl Stark: a Studio Ghibli style illustration of a girl, soft watercolor textures, warm color palette

Hochwirksame Stil-Anker:

Kategorie	Anker-Beispiele
Illustration	Studio Ghibli, Pixar, Cartoon Network 2010s, Adventure Time, Genshin Impact
Fotografie	Wes Anderson, Annie Leibovitz, National Geographic, Vogue editorial, Kodak Portra 400
Malerei	Monet impressionism, Van Gogh post-impressionism, Hopper realism, ukiyo-e
Modern	Y2K aesthetic, vaporwave, brutalist design, Memphis pattern, Bauhaus
Cinematisch	Wong Kar-wai, Christopher Nolan, A24 film palette, Blade Runner 2049

Das Modell kennt diese Referenzen. Nutze sie.

Regel 6: Verankere Kamera und Licht mit echtem Fotografievokabular

Für photorealistische Outputs liegt der Unterschied zwischen Amateur und Profi im Kameravokabular.

Anfänger: a realistic photo of a coffee cup on a desk Profi:

A coffee cup on a wooden desk, shot on Sony A7R IV, 35mm f/2.8 lens,
shallow depth of field, soft natural window light from the left,
golden hour color temperature, slight film grain.

Kamerabegriffe, die nachweislich Realismus verbessern:

Objektiv: 35mm, 50mm, 85mm portrait lens, wide-angle 24mm, macro 100mm
Blende: f/1.4, f/2.8, shallow depth of field, deep focus
Body: Sony A7R IV, Canon EOS R5, Leica M11, Hasselblad medium format
Licht: golden hour, blue hour, softbox studio lighting, Rembrandt lighting, rim light
Film: Kodak Portra 400, Fujifilm Velvia, Ilford HP5 black and white

Das ist nicht blumig — das sind technische Anweisungen, die das Modell zu interpretieren weiß.

Regel 7: Iteriere mit gerichteten Edits, nicht mit kompletten Neugenerierungen

Hier verbrennen die meisten Nutzer 70 % ihres API-Budgets.

Schlechter Workflow:

Generate → nicht perfekt → Prompt zwicken → von vorn generieren →
Komposition verschiebt sich → heulen → 5-mal wiederholen.

Guter Workflow:

Generate → nicht perfekt → "in this image, change [X] to [Y],
keep everything else identical" → fertig.

GPT Image 2 unterstützt Multi-Turn-Directed-Editing, das den Rest des Bildes bewahrt. Das ist der mit Abstand größte Kostensparer.

Beispiele für effektive Directed-Edit-Prompts:

"Change the model's jacket from navy to beige. Keep face,
background, lighting, and pose unchanged."

"Replace the headline text with 'Spring Sale'. Keep all other
text, layout, and styling identical."

"Remove the watermark in the bottom-right corner. Keep
everything else exactly the same."

Der Satz "keep everything else identical" ist die Zauberformel. Lass ihn nicht weg.

Alles zusammen: ein vollständiger Praxis-Prompt

Hier ist ein Prompt, der alle 7 Regeln auf einmal nutzt. Es geht um ein E-Commerce-Hero-Bild:

A white stainless steel insulated water bottle, standing upright
on a beige linen tablecloth, with soft window light from the left
at 45 degrees, premium minimalist product photography style.

Top-left red rectangular badge reads "Limited 50% Off",
top-right gold circular badge reads "24h Hot/Cold",
below the bottle bold black headline reads "Daily Commute Companion",
bottom-center small text reads "Tap to Shop".

Shot on Sony A7R IV, 50mm f/2.8 lens, shallow depth of field,
clean composition, no other objects in frame, no watermarks,
1:1 aspect ratio.

Ein solcher Prompt liefert typischerweise beim ersten oder zweiten Versuch ein brauchbares Ergebnis — statt der 5 bis 7 Retries, die du mit einem vagen Prompt bräuchtest.

Häufige GPT-Image-2-Prompt-Anti-Patterns

Eine kurze Liste von Dingen, die du sofort sein lassen solltest:

Anti-Pattern	Warum es scheitert	Was du stattdessen tun solltest
Keyword-Stuffing mit `masterpiece, 8k, ultra detailed`	Rauschen für GPT Image 2	Echte Stil-Anker nutzen (Regel 5)
Einzelner Bandwurmsatz ohne Kommas	Modell tut sich schwer, Struktur zu parsen	Die 5-Komponenten-Struktur nutzen (Regel 1)
Text konzeptuell beschreiben (`a sale headline`)	Rendert nicht die richtigen Wörter	Den exakten String immer in Anführungszeichen (Regel 2)
Prompts in Mischsprache ohne Absicht	Modell wird unklar, welche Sprache es rendern soll	Anweisungen in einer Sprache, On-Image-Text in der Zielsprache zitieren
50-Zeilen-Mega-Prompts	Abnehmender Grenznutzen ab ~15 Specs	Bei 10–15 Specs deckeln, Feinschliff per Directed Edit
Kein Wort zum Seitenverhältnis	Modell-Defaults variieren	Immer mit `1:1 / 16:9 / 9:16 aspect ratio` abschließen

Quick-Checkliste vor dem Klick auf Generate

Bevor du irgendeinen GPT-Image-2-Prompt einreichst, geh durch:

Hat er alle 5 Komponenten (Subjekt, Szene, Stil, Text, Kamera)?
Steht jeder On-Image-Text in Anführungszeichen?
Hat jedes Element eine festgelegte Position?
Habe ich ausgeschlossen, was ich nicht will?
Ist der Stil an eine echte Referenz verankert?
Sind Kamera und Licht spezifiziert (für Foto)?
Steht das Seitenverhältnis am Ende?

Sind alle 7 Häkchen gesetzt, springt deine Trefferquote auf rund 90 %.

Du willst dir das Schreiben ganz sparen?

Wenn du vorgefertigte GPT-Image-2-Prompts willst, die du direkt kopieren kannst, durchstöbere gpt-image2.art/explore — jedes Beispielbild hat seinen Source-Prompt sichtbar, sortiert nach Use Case (E-Commerce, Social Media, Character Design, Fotografie, Infografiken, Poster).