【第8回】第5話の裏側——パイプラインが消えて、マンガが残った
AI ネーム会議の選評が文学賞化し、Jinja2 テンプレートで画像生成がモデル非依存になり、Krita API で後処理が自動化された。技術の話をしているはずなのに、気づいたら「マンガを描いてる」実感があった
← 前の記事: 【第7回】テーゼとレトリック——なぜマンガにしたのか描きたかった話
YRGR 第5話「叱ると怒るの違い」は、個人的にとても描きたかった話だった。
「なんで?」は詰問、「何があった?」は質問。たった一文字の違いで部下の反応が変わる。叱ったあとに笑顔になれるか。正論で人は動かない——。
テキスト版を書いたときから、これはマンガ映えすると思っていた。先輩が缶コーヒー片手に語るシーン、電車に乗って降りるまでの「間」、「なんで?」と「何があった?」の対比を見開きで見せる演出。文字では伝えきれない「間」がある話だ。
そして実際にマンガにできた。14ページ、全部描き切れた。
この記事では、第5話がどうやってできたかを書く。ただし、技術の話をしているつもりが、途中から別のことに気づいた。
AI の選評が文学賞になった
第3回で紹介した AI 3者ネーム会議。3つの AI モデルに並列でネームを作らせ、相互レビューさせ、匿名投票で決める仕組みだ。
第5話でもこのフローを回した。そして気づいたのは、投票の選考理由が変わっていたことだ。
初期の頃は「構成がわかりやすい」「セリフが収まっている」程度だった。それが今回はこうなった。
案Cは、P10の窓に映る自分の顔を見つめるコマが、セリフなしで内省を語る「漫画ならでは」の見せ場として効いている
ペットボトルの結露が乾いていく時間経過の演出など、「絵で語る」漫画ならではの工夫が随所にある
缶コーヒーの残量変化→くしゃっと潰す一連の流れは同等以上に丁寧で、P4を3コマに絞った「石化の衝撃」の見せ方は案Cの6コマ構成より大胆
照明、小物の隠喩、間の使い方、象徴表現。誰も教えていないのに、賞の選考理由みたいなことを書き始めていた。
これはスクリプト面でも起きていた。AI が照明や小物にこだわり出して、隠喩や象徴の表現を重視するようになった。相互レビューで「この演出がいい」とフィードバックし合ううちに、評価基準が高次に収束していったのだと思う。
結果として、演出の質が高い案が生き残る淘汰圧がかかっている。
ネーム投票は割れた
最初のスクリプト(脚本)投票は全会一致だった。ところが、そのスクリプトをネームに起こす段階の投票で2対2に割れた。
6つの案が出て、争点は演出スタイルの好みに集約された。
- 案5(Claude): ミニキャラの図解・コミカルな漫画記号で視覚的メリハリを作る路線。「自己防衛の盾」「詰問と質問の矢印の対比」をポップな視覚メタファーで表現
- 案C(Gemini): 翌朝タケダに実際に声をかけるシーンまで描く、カタルシス型エンド。振り返るタケダの驚き顔とワタシの笑顔でフェードアウト
Gemini 勢は「ミニキャラ化で分かりやすく、ネーム担当が構図に落とし込みやすい」、Claude 勢は「翌朝の実践描写でカタルシスを、連載としての橋渡しも機能する」。
投票が割れると人間に判断が回ってくる。選んだのは Gemini 案だった。
理由はシンプルだ。絵がきれいに浮かんだから。
AI の選評はどれも精緻だった。でも最終的に「これがマンガになったとき一番いい画になる」という判断は、自分の直感でしかなかった。結果として、ページ7のハリセン詰問 vs パズル質問の対比演出が生まれた。あれはマンガとして強い画になったと思う。
コメディタッチという設計判断
第5話では意図的にコメディタッチの表現を入れた。シリアスなテーマなのに、デフォルメのミニキャラ、大げさな表情、ツッコミ的な動作。
これには理由がある。
当初は AI 画像生成のキャラ一貫性の揺らぎをカバーする狙いもあった。コメディ表現のほうが、キャラの顔が多少変わっても許容されるからだ。
しかし NanoBanana のキャラシート参照と、後述する JSON 書き換え手法でキャラ一貫性の問題は別の角度から解決された。そうなると、コメディ表現は「カバー」ではなく、純粋に演出として使えるようになった。
シリアスな話にコメディ要素を入れると、キャラの感情が画面に定着する。ページ7の「なんで?」のデフォルメ扇子ツッコミがあるから、直後の電車シーンの静けさが際立つ。メリハリだ。
Web 技術がマンガを作る
ここからは技術の話をする。ただし、どれも Web 開発の設計パターンがそのまま転用されている。
Jinja2 テンプレート——モデル非依存パイプライン
YAML のネームデータから画像生成用のプロンプトを作るとき、Jinja2 テンプレートエンジンを使うようにした。
Web 開発で言えば、DB → テンプレート → HTML のレンダリングと同じ構造だ。YAML がデータベース、Jinja2 がテンプレートエンジン、出力の JSON がレンダリング結果。
目的はモデル非依存にすること。今は NanoBanana で画像を生成しているが、FLUX.2 や将来の新モデルに切り替えたいときは、テンプレートを差し替えるだけで済む。ネームの YAML は同じまま。条件分岐も使えるから、「夜シーンなら照明パラメータをこう」みたいなルールもテンプレートに持たせられる。
JSON 書き換え——画像のソースコード
NanoBanana に画像の JSON を吐かせることができる。この JSON を書き換えるだけで、構図・ポーズ・背景を維持したまま表情やセリフ位置を差し替えられる。
これは「画像のソースコード」を手に入れたようなものだ。
しかも JSON はある程度こちらのリードで定型化させられることがわかった。定型化した JSON の要素をネームの YAML の要素と一致させた。つまり、ネームの YAML を変更すれば、画像の JSON もそれに追従する。
以前は画像を全部やり直す必要があった。今はピンポイント修正が効く。表情だけ変えたい、照明だけ直したい——そういう微調整ができるようになった。
だからこそ AI ネーム会議で「この照明のほうがいい」みたいな細かいフィードバックが実際に活かせるようになって、演出の質が上がっていった。
Krita API サーバー——Convention over Configuration
Krita のバンドル Python でしか Krita API にアクセスできない。だからプラグインとして HTTP API サーバーを立て、Claude Code から操作できるようにした。
吹き出し配置、トーン処理、レイヤー合成がプログラマブルになった。ただし重要なのは、完全自動化ではないということだ。Krita の画面で仕上がりを確認しながら、Claude Code に指示を出して、その場で反映を確認する。
これは Rails の思想そのものだ。ポン出しはいい案配で、そのあとすべて調整可能。 Convention over Configuration。デフォルトで良い感じに出るけど、どこでも上書きできる。
失敗した話もする
吹き出しの自動配置で苦戦した。エージェントに Playwright でスクリーンショットを見せながら、「顔と被らない位置に」「一行7文字くらいの大きさで」「しっぽはキャラの口の方に」と指示していた。
グリッド線を追加して座標ベースの判断を補助したが、それでも精度が足りない。そこで OpenCV で顔検出して、顔の範囲をマスク表示しようとした。
結果——マンガの絵では顔検出がまともに動かなかった。
OpenCV の顔検出は実写ベースで学習されている。デフォルメや横顔、コメディ表現の崩し顔は全然拾えない。
結論。8割を AI でやって残り2割は人間が仕上げるほうがトータルで速い。 完全自動化を追求するより、「ある程度までやって最後は人間」のほうが現実的だった。これも Convention over Configuration の一種だと思う。
コマ数の定量管理
もう一つ、地味だが効いた改善がある。
以前のネームはコマ割りが3〜4コマしか使っていなかった。でも多くのマンガは5〜6コマが中心だと気づいた。
3〜4コマだとページ数が膨大になるか、セリフを詰め込みすぎるかのどちらかになる。5〜6コマにすることでテンポよく読めるし、大ゴマとのメリハリも効く。
ralph-loop の品質チェックにコマ数のバリデーションを組み込んだ。基本5〜6コマ、大事な場面では大ゴマ OK。基準から外れたらフィードバックしてやり直し。ビルドが通るまでループするのと同じ仕組みだ。
第5話のページ8——先輩の「笑えないなら、怒っただけだ」の2コマ見開きが映えるのは、周りのページが5〜6コマの密度で構成されているからだ。
パイプラインが消えた
ここまで技術の話をしてきた。でも第5話を作り終えたとき、感じたのは技術の達成感ではなかった。
マンガを描いてる、という実感だった。
AI ネーム会議で演出を決め、投票が割れたら自分の直感で選び、JSON を微調整して表情を直し、Krita で吹き出しを配置する。どの工程も AI が入っている。でもやっていることは「マンガを描く」だった。
パイプラインが整ったことで、「どう作るか」を考える必要がなくなった。代わりに「何を伝えるか」「この場面はどう見せるか」に集中できるようになった。
前回、テーゼとレトリックの話を書いた。レトリックのボトルネックが消えたとき、テーゼに集中できると。
第5話で、それを体感した。
「叱ると怒るの違い」という伝えたいメッセージがあった。それをマンガとしてどう演出するか——電車の「間」、一文字の対比、先輩の缶コーヒー——に集中できた。パイプラインは透明になっていた。意識しなくなっていた。
道具が手に馴染んだとき、道具は消える。残るのは作品だけだ。