2026/04/23

GPT Image 2 Prompt 寫作指南：讓命中率從 30% 漲到 90% 的 7 條規律

一份基於 200+ 張實測的 GPT Image 2 prompt 寫作指南。講清結構、關鍵詞、避坑、以及決定「一次出圖 vs 重抽 5 次」的 7 條規律——每條都能在 30 秒內用到下一條 prompt 上。

如果你用 GPT Image 2 時總覺得「它好像沒聽我的」，問題幾乎從來不在模型，而在 prompt 的寫法。我跑了 200+ 張圖、對照了一份命中率矩陣後，發現同樣的 7 條規律能讓你從「重抽 5 次還不行」直接跳到「第一次就出對」。

這是一份能立刻用得上的 GPT Image 2 prompt 寫作指南。下面每一條規律，你都能在 30 秒內用到下一條 prompt 上。

為什麼大多數 GPT Image 2 prompt 會失敗

約 80% 的失敗 prompt 都中了下面三種套路之一：

把 GPT Image 2 當 Stable Diffusion 用——往 prompt 裡堆 masterpiece, 8k, ultra detailed, high quality 這種關鍵詞湯。這些 token 對 GPT Image 2 是雜訊。
寫一句沒有結構的長跑句——一句中文/英文把所有資訊混在一起。GPT Image 2 讀結構，結構還回去就是好圖。
忘了給文字加引號——寫「標題寫限時五折」遠遠不如寫「標題寫 "限時五折"」。引號能改變一切。

光修這三個，命中率就能翻倍。下面是詳細的 7 條規律。

規律 1：把 prompt 拆成 5 塊——主體、場景、風格、文字、鏡頭

一條可靠的 GPT Image 2 prompt 由 5 個有順序的部分組成：

部分	寫什麼	例子
主體	主要物體或角色	一支白色不鏽鋼保溫杯
場景	背景環境	立在淺米色亞麻桌布上，柔和室內光
風格	視覺氛圍 + 參考	時尚電商產品攝影，高級感
文字	所有圖上文字（一律加引號）	左上紅色徽章 `"限時 5 折"`
鏡頭	鏡頭、光線、角度	左側 45 度主光，淺景深

用逗號串起來。完整 prompt 長這樣：

一支白色不鏽鋼保溫杯，立在淺米色亞麻桌布上，柔和室內光，時尚電商
產品攝影，高級感，左上紅色徽章 "限時 5 折"，杯身下方黑色粗體文字
"通勤神器，整天不涼"，左側 45 度主光，淺景深。

這個結構有效是因為 GPT Image 2 是一個語言模型——它跟著敘事順序走。順序亂 = 輸出亂。

規律 2：圖上每一個字都要加引號

這是單條 ROI 最高的規律。下面兩種寫法：

❌ 標題寫限時五折 ✅ 標題寫 "限時五折"

文字渲染命中率差距是 30-40 個百分點。原因？引號告訴模型「這串字符就是要渲染的精確內容」，而不是「描述一個限時五折的概念」。

英文同理：

❌ the headline says limited offer ✅ the headline reads "Limited Offer"

多個文字元素時：

頂部標題 "2026 春季新品"，副標題 "全場 7 折"，左下小字 "活動時間：
4.20-5.20"，右側直排文字 "限時優惠"。

每段都加引號，每段都說位置。

規律 3：每個元素都給位置

GPT Image 2 對空間語言理解很好——但你得真的告訴它。

模糊：圖上有一個 logo 和一些文字精確：左上角一個圓形 logo，右下角三行文字

可靠的空間詞彙：

左上 / 右上 / 居上 / 左下 / 右下 / 居下
居中 / 垂直居中 / 水平居中
前景 / 中景 / 背景
標題上方 / 副標題下方 / 圖示旁邊

3 個以上元素時，每個元素都要給位置，沒有例外。

規律 4：把不要的東西也寫出來

Stable Diffusion 時代有專門的「負面 prompt」欄位。GPT Image 2 沒有，但它能理解自然語言形式的反向約束：

... 杯身上沒有任何文字，
背景沒有陰影，
畫面裡沒有其他物體，
不帶浮水印。

反向約束特別有用的場景：

去浮水印（不帶浮水印，不帶 logo overlay）
清乾淨背景（純色背景，沒有裝飾）
避免多手指（手清晰可見，符合解剖結構）
防止過度裝飾（極簡風格，沒有多餘元素）

5 次返工裡平均能省 1 次——只要你花 10 秒寫清楚不要什麼。

規律 5：用真實參考詞錨定風格，別用形容詞

「漂亮」「好看」「驚豔」對模型來說什麼也沒說。錨定到真實參考則什麼都說清楚了。

弱：一張漂亮的女孩插畫強：宮崎駿吉卜力風格的女孩插畫，水彩柔和質感，暖色調

高 ROI 的風格錨定參考：

類別	參考舉例
插畫	宮崎駿 / 吉卜力、Pixar、Cartoon Network 2010s、咒術迴戰、原神
攝影	王家衛、Annie Leibovitz、National Geographic、Vogue 時尚大片、柯達 Portra 400
繪畫	莫內印象派、梵谷後印象派、霍珀寫實、浮世繪
現代	Y2K 風、蒸汽波、粗野主義、孟菲斯圖案、包浩斯
電影感	王家衛、克里斯托弗·諾蘭、A24 電影色調、銀翼殺手 2049

模型知道這些參考。直接用。

規律 6：用真實攝影術語鎖住鏡頭和光線

要拍出真實攝影感的圖，業餘和專業的差別就在鏡頭詞彙。

新手：一張寫實的咖啡杯桌上照片進階：

木質桌上一杯咖啡，shot on Sony A7R IV，35mm f/2.8 鏡頭，
淺景深，左側柔和窗光，黃金時刻色溫，輕微底片顆粒感。

實測能顯著提升真實感的術語：

鏡頭焦段：35mm、50mm、85mm 人像頭、24mm 廣角、100mm 微距
光圈：f/1.4、f/2.8、淺景深、深景深
機身：Sony A7R IV、Canon EOS R5、Leica M11、Hasselblad 中畫幅
光線：黃金時刻、藍調時刻、柔光箱影棚布光、林布蘭布光、輪廓光
底片：柯達 Portra 400、富士 Velvia、Ilford HP5 黑白

這些不是花哨詞——它們是模型聽得懂的技術指令。

規律 7：用「指令編輯」迭代，不要重抽

這一條能省你 70% 的 API 預算。

錯誤流程：

出圖 → 不滿意 → 改 prompt → 重新生成 → 構圖全變 → 哭 → 重複 5 次

正確流程：

出圖 → 不滿意 → 「在這張圖上，把 [X] 改成 [Y]，其他全部保持不變」
→ 完成

GPT Image 2 支援多輪指令編輯，保留其他區域不動。這是它最重要的省錢機制。

有效的指令編輯 prompt 例子：

"把模特的外套從藏青色改成米色。臉、背景、光線、姿勢全部保持不變。"

"把標題文字換成 '春季大促'。其他文字、版面、樣式全部保持不變。"

"刪掉右下角的浮水印，其他完全不變。"

「其他全部保持不變」這句話是魔法咒語。別忘了寫。

實戰：一條同時用上 7 條規律的完整 prompt

下面這條 prompt 同時用了 7 條規律。這是一張電商主圖：

一支白色不鏽鋼保溫杯，立在淺米色亞麻桌布上，左側 45 度柔和窗光，
極簡高級感產品攝影風格。

左上紅色矩形徽章 "限時 5 折"，
右上金色圓形徽章 "24h 保溫"，
杯身下方黑色粗體大字 "通勤神器，整天不涼"，
最底部小字 "點擊立即購買"。

shot on Sony A7R IV，50mm f/2.8 鏡頭，淺景深，乾淨構圖，
畫面裡沒有其他物體，不帶浮水印，1:1 方圖。

這種 prompt 通常一次或兩次就能出可用圖，而不是模糊 prompt 那種重抽 5-7 次。

GPT Image 2 prompt 常見反模式

立刻停止做的幾件事：

反模式	為什麼失敗	應該怎麼做
`masterpiece, 8k, ultra detailed` 關鍵詞堆砌	對 GPT Image 2 是雜訊	用真實風格錨定（規律 5）
沒有逗號的長跑句	模型難以解析結構	用 5 段式結構（規律 1）
用概念描述文字（「一個促銷標題」）	不會渲染對的字	永遠引號引用精確字串（規律 2）
多語言混寫沒有意圖	模型困惑該渲染哪種語言	指令用一種語言，圖上文字加引號給目標語言
50 行的巨型 prompt	超過約 15 條規格後邊際收益遞減	控制在 10-15 條規格內，細節用指令編輯
不寫寬高比	模型預設值不一定是你要的	永遠在末尾加 `1:1 / 16:9 / 9:16 比例`