【第29回】画像生成の請求書、4分の3は見えていなかった——gpt-image-2 の入力トークン代を集計する | yatmita テックラボ

前回 low は0.75円/枚と書いた。でも数千枚を集計したら、その数字は請求の4分の1でしかなかった。gpt-image-2 の隠れたコストドライバー＝参照画像の入力トークンを、自前のダッシュボードに組み込んだ記録

前回の数字は「半分」ですらなかった

第21回で、gpt-image-2 の料金をこう書いた。

low は $0.005/枚（≒0.75円）で漫画コマの局所修正には十分

これは間違いではない。ただし、これは「1枚あたりの出力コスト（output）」の話だ。数千枚を生成したあとで自前のダッシュボードを集計し直したら、その 0.75円/枚は請求の 4分の1 しか説明していなかった。

全履歴 4,025 枚を集計した結果がこれだ。

種別	金額	比率
input（参照画像の入力トークン）	$81.06	75%
output（1枚あたりの固定料金）	$26.45	25%
合計	$107.51

ダッシュボードは output の $26 しか出していなかった。つまり、実際の請求の 4 分の 1 を見て「安いね」と言っていた。

gpt-image-2 の課金は2階建て

見落としの原因は、課金が2階建てになっていることだ。

output（1枚あたり固定）: $0.005〜0.211。枚数にしか比例しない。第21回で書いた料金表はこれ
input（トークン従量）: プロンプトと 参照画像 をモデルに読ませる代金。トークン量に比例する

マンガ制作では、キャラの一貫性を保つために 毎回キャラの参照画像（ref）を渡す。これが入力トークンを押し上げる。

参照画像 1 枚はおよそ 1,044 image tokens。AInic Dialogs vol.2 を作っていたときは、のり子7枚＋クロコ7枚＝14枚を毎 call 渡していた。1 call あたり約 14,600 tokens になる。

1 call の内訳	トークン	コスト
入力（ref 14枚）	約 14,600	約 $0.117
出力（1枚 low）	—	$0.005

出力の 23 倍が入力で消えている。品質のために盛った参照画像が、請求書の主役になっていた。

トークン単価（2026-05 時点）

ここで一度つまずいた。自分で立てた issue には「image input は $10/1M」と書いていた。実装直前に一次情報を確認したら、これは OpenAI の汎用 vision レート であって、gpt-image-2 専用のレートではなかった。

gpt-image-2 の per-token レートは次のとおり。

区分	単価
image input	$8 / 1M tokens
text input	$5 / 1M tokens
cached image input	$2 / 1M tokens
image output	$30 / 1M tokens

「$10」と「$8」では 2 割ずれる。さらに言えば、第21回で載せた「$0.006 / $0.053 / $0.211」という per-image 表記そのものが、OpenAI のリスト価格ではなく 計算機由来の見積もり だ。コスト計算を実装する前に「汎用レートと専用モデルレートを混同していないか」を一次情報で潰しておくべきだった、というのが教訓。

なぜ気づいたか：hard limit に2回ぶつかった

きっかけは billing hard limit に 2 回到達したことだった。output 換算では到底説明のつかない金額に達していた。「1枚 0.75円で、まだ数千枚も生成していないのに上限？」——この違和感が、隠れた input コストを掘る発端になった。

直したこと

自作エディタ（manginus）の使用量記録を、2階建てに対応させた。

トークン内訳を保存: API レスポンスの input_tokens_details.image_tokens / text_tokens を記録する
コストを合算: output(per-image) + image×$8/1M + text×$5/1M
旧ログを遡及再計算: 過去ログには image_tokens が無いので、input_tokens を画像トークン換算してさかのぼる。これで「いつから input が効いていたか」が見える
事前見積もり API: 「残り N コマ × ref M 枚」でコストを生成前に出す

事前見積もりはこう出る。

GET /api/openai/usage/estimate?remaining_panels=437&ref_count=14
→ input $51.10 / output $2.19 / 計 $53.28

「あと437コマで53ドル」と生成前に分かれば、hard limit に突っ込む前に手を打てる。

まとめ

gpt-image-2 の課金は output（1枚固定）+ input（トークン従量）の2階建て
マンガ制作では 参照画像の入力トークンが output の3倍前後 を占める
「1枚いくら」だけで予算を立てると、ref を盛るほど外れる
参照画像を1枚に絞るのは、品質の判断であると同時に コストの判断 でもある
料金は汎用 vision レート（$10/1M）ではなく gpt-image-2 専用（$8/1M）。一次情報で確認すること

次回、note 側で「では1話まるごと描くといくらか」を実額で出す。白黒少女漫画『鏡とりんご』第1話、約370円——その内訳の話をする。

前回の記事: 【第21回】gpt-image-2 を漫画コマ修正に使ってみた——品質ティア・料金・Gemini との使い分け