2026/04/23

GPT Image 2 Prompt 写作指南：让命中率从 30% 涨到 90% 的 7 条规律

一份基于 200+ 张实测的 GPT Image 2 prompt 写作指南。讲清结构、关键词、避坑、以及决定「一次出图 vs 重抽 5 次」的 7 条规律——每条都能在 30 秒内用到下一条 prompt 上。

如果你用 GPT Image 2 时总觉得「它好像没听我的」，问题几乎从来不在模型，而在 prompt 的写法。我跑了 200+ 张图、对照了一份命中率矩阵后，发现同样的 7 条规律能让你从「重抽 5 次还不行」直接跳到「第一次就出对」。

这是一份能立刻用得上的 GPT Image 2 prompt 写作指南。下面每一条规律，你都能在 30 秒内用到下一条 prompt 上。

为什么大多数 GPT Image 2 prompt 会失败

约 80% 的失败 prompt 都中了下面三种套路之一：

把 GPT Image 2 当 Stable Diffusion 用——往 prompt 里堆 masterpiece, 8k, ultra detailed, high quality 这种关键词汤。这些 token 对 GPT Image 2 是噪声。
写一句没有结构的长跑句——一句中文/英文把所有信息混在一起。GPT Image 2 读结构，结构还回去就是好图。
忘了给文字加引号——写「标题写限时五折」远远不如写「标题写 "限时五折"」。引号能改变一切。

光修这三个，命中率就能翻倍。下面是详细的 7 条规律。

规律 1：把 prompt 拆成 5 块——主体、场景、风格、文字、镜头

一条可靠的 GPT Image 2 prompt 由 5 个有顺序的部分组成：

部分	写什么	例子
主体	主要物体或角色	一支白色不锈钢保温杯
场景	背景环境	立在浅米色亚麻桌布上，柔和室内光
风格	视觉氛围 + 参考	时尚电商产品摄影，高级感
文字	所有图上文字（一律加引号）	左上红色徽章 `"限时 5 折"`
镜头	镜头、光线、角度	左侧 45 度主光，浅景深

用逗号串起来。完整 prompt 长这样：

一支白色不锈钢保温杯，立在浅米色亚麻桌布上，柔和室内光，时尚电商
产品摄影，高级感，左上红色徽章 "限时 5 折"，杯身下方黑色粗体文字
"通勤神器，整天不凉"，左侧 45 度主光，浅景深。

这个结构有效是因为 GPT Image 2 是一个语言模型——它跟着叙事顺序走。顺序乱 = 输出乱。

规律 2：图上每一个字都要加引号

这是单条 ROI 最高的规律。下面两种写法：

❌ 标题写限时五折 ✅ 标题写 "限时五折"

文字渲染命中率差距是 30-40 个百分点。原因？引号告诉模型「这串字符就是要渲染的精确内容」，而不是「描述一个限时五折的概念」。

英文同理：

❌ the headline says limited offer ✅ the headline reads "Limited Offer"

多个文字元素时：

顶部标题 "2026 春季新品"，副标题 "全场 7 折"，左下小字 "活动时间：
4.20-5.20"，右侧竖排文字 "限时优惠"。

每段都加引号，每段都说位置。

规律 3：每个元素都给位置

GPT Image 2 对空间语言理解很好——但你得真的告诉它。

模糊：图上有一个 logo 和一些文字精确：左上角一个圆形 logo，右下角三行文字

可靠的空间词汇：

左上 / 右上 / 居上 / 左下 / 右下 / 居下
居中 / 垂直居中 / 水平居中
前景 / 中景 / 背景
标题上方 / 副标题下方 / 图标旁边

3 个以上元素时，每个元素都要给位置，没有例外。

规律 4：把不要的东西也写出来

Stable Diffusion 时代有专门的「负面 prompt」字段。GPT Image 2 没有，但它能理解自然语言形式的反向约束：

... 杯身上没有任何文字，
背景没有阴影，
画面里没有其他物体，
不带水印。

反向约束特别有用的场景：

去水印（不带水印，不带 logo overlay）
清干净背景（纯色背景，没有装饰）
避免多手指（手清晰可见，符合解剖结构）
防止过度装饰（极简风格，没有多余元素）

5 次返工里平均能省 1 次——只要你花 10 秒写清楚不要什么。

规律 5：用真实参考词锚定风格，别用形容词

「漂亮」「好看」「惊艳」对模型来说什么也没说。锚定到真实参考则什么都说清楚了。

弱：一张漂亮的女孩插画强：宫崎骏吉卜力风格的女孩插画，水彩柔和质感，暖色调

高 ROI 的风格锚定参考：

类别	参考举例
插画	宫崎骏 / 吉卜力、皮克斯、Cartoon Network 2010s、咒术回战、原神
摄影	王家卫、Annie Leibovitz、National Geographic、Vogue 时尚大片、柯达 Portra 400
绘画	莫奈印象派、梵高后印象派、霍珀写实、浮世绘
现代	Y2K 风、蒸汽波、粗野主义、孟菲斯图案、包豪斯
电影感	王家卫、克里斯托弗·诺兰、A24 电影色调、银翼杀手 2049

模型知道这些参考。直接用。

规律 6：用真实摄影术语锁住镜头和光线

要拍出真实摄影感的图，业余和专业的差别就在镜头词汇。

新手：一张写实的咖啡杯桌上照片进阶：

木质桌上一杯咖啡，shot on Sony A7R IV，35mm f/2.8 镜头，
浅景深，左侧柔和窗光，黄金时刻色温，轻微胶片颗粒感。

实测能显著提升真实感的术语：

镜头焦段：35mm、50mm、85mm 人像头、24mm 广角、100mm 微距
光圈：f/1.4、f/2.8、浅景深、深景深
机身：Sony A7R IV、Canon EOS R5、Leica M11、Hasselblad 中画幅
光线：黄金时刻、蓝调时刻、柔光箱影棚布光、伦勃朗布光、轮廓光
胶片：柯达 Portra 400、富士 Velvia、Ilford HP5 黑白

这些不是花哨词——它们是模型听得懂的技术指令。

规律 7：用「指令编辑」迭代，不要重抽

这一条能省你 70% 的 API 预算。

错误流程：

出图 → 不满意 → 改 prompt → 重新生成 → 构图全变 → 哭 → 重复 5 次

正确流程：

出图 → 不满意 → 「在这张图上，把 [X] 改成 [Y]，其他全部保持不变」
→ 完成

GPT Image 2 支持多轮指令编辑，保留其他区域不动。这是它最重要的省钱机制。

有效的指令编辑 prompt 例子：

"把模特的外套从藏青色改成米色。脸、背景、光线、姿势全部保持不变。"

"把标题文字换成 '春季大促'。其他文字、版面、样式全部保持不变。"

"删掉右下角的水印，其他完全不变。"

「其他全部保持不变」这句话是魔法咒语。别忘了写。

实战：一条同时用上 7 条规律的完整 prompt

下面这条 prompt 同时用了 7 条规律。这是一张电商主图：

一支白色不锈钢保温杯，立在浅米色亚麻桌布上，左侧 45 度柔和窗光，
极简高级感产品摄影风格。

左上红色矩形徽章 "限时 5 折"，
右上金色圆形徽章 "24h 保温"，
杯身下方黑色粗体大字 "通勤神器，整天不凉"，
最底部小字 "点击立即购买"。

shot on Sony A7R IV，50mm f/2.8 镜头，浅景深，干净构图，
画面里没有其他物体，不带水印，1:1 方图。

这种 prompt 通常一次或两次就能出可用图，而不是模糊 prompt 那种重抽 5-7 次。

GPT Image 2 prompt 常见反模式

立刻停止做的几件事：

反模式	为什么失败	应该怎么做
`masterpiece, 8k, ultra detailed` 关键词堆砌	对 GPT Image 2 是噪声	用真实风格锚定（规律 5）
没有逗号的长跑句	模型难以解析结构	用 5 段式结构（规律 1）
用概念描述文字（「一个促销标题」）	不会渲染对的字	永远引号引用精确字符串（规律 2）
多语言混写没有意图	模型困惑该渲染哪种语言	指令用一种语言，图上文字加引号给目标语言
50 行的巨型 prompt	超过约 15 条规格后边际收益递减	控制在 10-15 条规格内，细节用指令编辑
不写宽高比	模型默认值不一定是你要的	永远在末尾加 `1:1 / 16:9 / 9:16 比例`