【第29回】画像生成の請求書、4分の3は見えていなかった——gpt-image-2 の入力トークン代を集計する
前回 low は0.75円/枚と書いた。でも数千枚を集計したら、その数字は請求の4分の1でしかなかった。gpt-image-2 の隠れたコストドライバー=参照画像の入力トークンを、自前のダッシュボードに組み込んだ記録
← 前の記事: 【第28回】ネーム会議 第5報——Gemini CLI 廃止で空いた1枠に Grok を入れ、コマ割りを「一気に」やめた話前回の数字は「半分」ですらなかった
第21回で、gpt-image-2 の料金をこう書いた。
low は $0.005/枚(≒0.75円)で漫画コマの局所修正には十分
これは間違いではない。ただし、これは「1枚あたりの出力コスト(output)」の話だ。数千枚を生成したあとで自前のダッシュボードを集計し直したら、その 0.75円/枚 は請求の 4分の1 しか説明していなかった。
全履歴 4,025 枚を集計した結果がこれだ。
| 種別 | 金額 | 比率 |
|---|---|---|
| input(参照画像の入力トークン) | $81.06 | 75% |
| output(1枚あたりの固定料金) | $26.45 | 25% |
| 合計 | $107.51 |
ダッシュボードは output の $26 しか出していなかった。つまり、実際の請求の 4 分の 1 を見て「安いね」と言っていた。
gpt-image-2 の課金は2階建て
見落としの原因は、課金が2階建てになっていることだ。
- output(1枚あたり固定): $0.005〜0.211。枚数にしか比例しない。第21回で書いた料金表はこれ
- input(トークン従量): プロンプトと 参照画像 をモデルに読ませる代金。トークン量に比例する
マンガ制作では、キャラの一貫性を保つために 毎回キャラの参照画像(ref)を渡す。これが入力トークンを押し上げる。
参照画像 1 枚はおよそ 1,044 image tokens。AInic Dialogs vol.2 を作っていたときは、のり子7枚+クロコ7枚=14枚を毎 call 渡していた。1 call あたり約 14,600 tokens になる。
| 1 call の内訳 | トークン | コスト |
|---|---|---|
| 入力(ref 14枚) | 約 14,600 | 約 $0.117 |
| 出力(1枚 low) | — | $0.005 |
出力の 23 倍が入力で消えている。品質のために盛った参照画像が、請求書の主役になっていた。
トークン単価(2026-05 時点)
ここで一度つまずいた。自分で立てた issue には「image input は $10/1M」と書いていた。実装直前に一次情報を確認したら、これは OpenAI の汎用 vision レート であって、gpt-image-2 専用のレートではなかった。
gpt-image-2 の per-token レートは次のとおり。
| 区分 | 単価 |
|---|---|
| image input | $8 / 1M tokens |
| text input | $5 / 1M tokens |
| cached image input | $2 / 1M tokens |
| image output | $30 / 1M tokens |
「$10」と「$8」では 2 割ずれる。さらに言えば、第21回で載せた「$0.006 / $0.053 / $0.211」という per-image 表記そのものが、OpenAI のリスト価格ではなく 計算機由来の見積もり だ。コスト計算を実装する前に「汎用レートと専用モデルレートを混同していないか」を一次情報で潰しておくべきだった、というのが教訓。
なぜ気づいたか:hard limit に2回ぶつかった
きっかけは billing hard limit に 2 回到達したことだった。output 換算では到底説明のつかない金額に達していた。「1枚 0.75円で、まだ数千枚も生成していないのに上限?」——この違和感が、隠れた input コストを掘る発端になった。
直したこと
自作エディタ(manginus)の使用量記録を、2階建てに対応させた。
- トークン内訳を保存: API レスポンスの
input_tokens_details.image_tokens/text_tokensを記録する - コストを合算:
output(per-image) + image×$8/1M + text×$5/1M - 旧ログを遡及再計算: 過去ログには image_tokens が無いので、
input_tokensを画像トークン換算してさかのぼる。これで「いつから input が効いていたか」が見える - 事前見積もり API: 「残り N コマ × ref M 枚」でコストを生成前に出す
事前見積もりはこう出る。
GET /api/openai/usage/estimate?remaining_panels=437&ref_count=14
→ input $51.10 / output $2.19 / 計 $53.28
「あと437コマで53ドル」と生成前に分かれば、hard limit に突っ込む前に手を打てる。
まとめ
- gpt-image-2 の課金は output(1枚固定)+ input(トークン従量)の2階建て
- マンガ制作では 参照画像の入力トークンが output の3倍前後 を占める
- 「1枚いくら」だけで予算を立てると、ref を盛るほど外れる
- 参照画像を1枚に絞るのは、品質の判断であると同時に コストの判断 でもある
- 料金は汎用 vision レート($10/1M)ではなく gpt-image-2 専用($8/1M)。一次情報で確認すること
次回、note 側で「では1話まるごと描くといくらか」を実額で出す。白黒少女漫画『鏡とりんご』第1話、約370円——その内訳の話をする。
前回の記事: 【第21回】gpt-image-2 を漫画コマ修正に使ってみた——品質ティア・料金・Gemini との使い分け