【第21回】gpt-image-2 を漫画コマ修正に使ってみた——品質ティア・料金・Gemini との使い分け | yatmita テックラボ

OpenAI の画像生成モデル gpt-image-2 の API を漫画制作に使った記録。low/medium/high の品質ティアと料金、画像編集エンドポイントの実力、Gemini との使い分けを整理する

gpt-image-2 とは

gpt-image-2 は OpenAI が 2025年にリリースした画像生成モデルだ。DALL-E 3 の後継にあたり、OpenAI API から使える。最大の特徴は 品質を3段階（low / medium / high）で選べる こと。用途に合わせてコストと品質をコントロールできる。

生成（テキスト→画像）と編集（既存画像+指示→新画像）の両方に対応している。この記事では主に 編集（edits） の話をする。漫画コマの部分修正に使ったからだ。

API の基本

画像生成

POST https://api.openai.com/v1/images/generations
{
  "model": "gpt-image-2",
  "prompt": "...",
  "quality": "low",
  "size": "1024x1024",
  "n": 1
}

画像編集

POST https://api.openai.com/v1/images/edits
Content-Type: multipart/form-data
 
model=gpt-image-2
prompt=...（修正指示）
image=（元画像ファイル）
quality=low
size=1024x1536

参照画像を複数渡すことも可能（image[] パラメータ）。キャラクターの外見を保ちつつ一部だけ変えたいときに使う。

料金

2026年4月時点の価格。

1024×1024（正方形）

品質	1枚あたり	円換算（1ドル=150円）
low	$0.005	約 0.75円
medium	$0.053	約 8円
high	$0.211	約 32円

1024×1536 / 1536×1024（縦長・横長）

品質	1枚あたり
low	$0.005
medium	$0.041
high	$0.165

low は正方形も縦横長も同額。medium 以上はサイズで変わる。

実際の OpenAI 請求とはわずかに差が出る可能性があるが、大きくはずれない。

low / medium / high の違いは何か

ここで誤解しやすい点がある。品質ティアはサイズではない。DPI でもない。

出力される画像のピクセル数はティアによらず同じ（1024×1024 なら 1024×1024）。ティアが決めるのは モデルの推論コスト ——絵のディテール精度、光の表現、複雑な構図への対応力といった品質面だ。

low: 速くて安い。シンプルな構図やキャラが1人程度の修正に十分
medium: バランス型。複数キャラ・複雑な背景でも使える
high: 最高品質。ビジュアル的な完成度が要求される場面向け

漫画コマの部分修正（衣装直し、小物追加など）なら low で十分なことが多い。

実際に使った：漫画コマの衣装修正

やってみた料理部（全50話）で、複数のコマにキャラの衣装ミスが発生した。自動生成あるある。

修正内容

コマ	問題	結果
P45-1	2人がセーラー服	✅ json-edit で修正成功
P47-1	ネクタイが欠落	✅ json-edit で追加成功
P47-3	腰巻きエプロン→ビブエプロン	✅ json-edit で形状変更成功
P43-1	同上	✅ json-edit で修正成功
P50-4	衣装ミス	✅ json-edit で修正成功
P49-3	セーラー服（根強い）	⚠️ json-edit 2回失敗→再生成で解決
P43-2	セーラー服（同上）	⚠️ json-edit 失敗→再生成2回目で解決

7コマ修正、合計コスト 約 $0.06（≒ 9円）。

わかったこと：何が得意で何が苦手か

得意

小パーツの追加・変更。ネクタイを付ける、エプロンの形を変える、小物を足す、背景の一部を入れ替える——こういった「局所的な変更」は成功率が高い。

苦手

衣装の形そのものを変える。セーラー服の特徴的な大きな白い襟を「普通の丸首」に変えるような、シルエットが大きく変わる修正はモデルのバイアスに引っかかりやすい。プロンプトで「NO sailor collar」と明示しても確率的に出てくる。こういうケースは 再生成の方が成功率が高い。

セーラー服問題は base_prompt に「NO sailor uniform」が入っていても起きた。OpenAI のモデルはセーラー服に引っ張られるバイアスが強いようだ。

Gemini（Nano Banana）との使い分け

うちでは普段 Gemini 直叩き（Nano Banana）で漫画画像を生成している。今回 gpt-image-2 を試した結論：

用途	推奨
コマの新規生成	Gemini Flash（安い、キャラ参照画像を6枚渡せる）
小パーツ追加・局所修正	gpt-image-2 low（$0.005/枚、手軽）
衣装の形ごと変えたい	再生成（どちらのモデルでも）
キャラの一貫性が最重要な修正	Gemini Pro（参照画像が使える）

gpt-image-2 の edits API は 参照画像なしでも意外と形を保ってくれる。「この画像のネクタイを赤いネクタイに変えて」程度の修正は、追加コンテキストなしでそのまま通る。

一方 Gemini の json-edit（scene_json を渡して構造を保ちながら編集する仕組み）は、キャラの外見を保ちたい場合に強い。Gemini はキャラ参照画像を渡せるからだ。

どちらが優れているというより、修正の性質で使い分ける のが現実的な答えだ。

まとめ

gpt-image-2 は生成と編集の両対応
品質ティア（low/medium/high）はサイズではなく推論の質
low は $0.005/枚（≒0.75円）で漫画コマの局所修正には十分
小パーツの追加・変更は得意、衣装のシルエット変更は苦手
Gemini と gpt-image-2 は用途で使い分けるのがベスト