【第8回】第5話の裏側——パイプラインが消えて、マンガが残った | yatmita テックラボ

AI ネーム会議の選評が文学賞化し、Jinja2 テンプレートで画像生成がモデル非依存になり、Krita API で後処理が自動化された。技術の話をしているはずなのに、気づいたら「マンガを描いてる」実感があった

描きたかった話

YRGR 第5話「叱ると怒るの違い」は、個人的にとても描きたかった話だった。

「なんで？」は詰問、「何があった？」は質問。たった一文字の違いで部下の反応が変わる。叱ったあとに笑顔になれるか。正論で人は動かない——。

テキスト版を書いたときから、これはマンガ映えすると思っていた。先輩が缶コーヒー片手に語るシーン、電車に乗って降りるまでの「間」、「なんで？」と「何があった？」の対比を見開きで見せる演出。文字では伝えきれない「間」がある話だ。

そして実際にマンガにできた。14ページ、全部描き切れた。

この記事では、第5話がどうやってできたかを書く。ただし、技術の話をしているつもりが、途中から別のことに気づいた。

AI の選評が文学賞になった

第3回で紹介した AI 3者ネーム会議。3つの AI モデルに並列でネームを作らせ、相互レビューさせ、匿名投票で決める仕組みだ。

第5話でもこのフローを回した。そして気づいたのは、投票の選考理由が変わっていたことだ。

初期の頃は「構成がわかりやすい」「セリフが収まっている」程度だった。それが今回はこうなった。

案Cは、P10の窓に映る自分の顔を見つめるコマが、セリフなしで内省を語る「漫画ならでは」の見せ場として効いている

ペットボトルの結露が乾いていく時間経過の演出など、「絵で語る」漫画ならではの工夫が随所にある

缶コーヒーの残量変化→くしゃっと潰す一連の流れは同等以上に丁寧で、P4を3コマに絞った「石化の衝撃」の見せ方は案Cの6コマ構成より大胆

照明、小物の隠喩、間の使い方、象徴表現。誰も教えていないのに、賞の選考理由みたいなことを書き始めていた。

これはスクリプト面でも起きていた。AI が照明や小物にこだわり出して、隠喩や象徴の表現を重視するようになった。相互レビューで「この演出がいい」とフィードバックし合ううちに、評価基準が高次に収束していったのだと思う。

結果として、演出の質が高い案が生き残る淘汰圧がかかっている。

ネーム投票は割れた

最初のスクリプト（脚本）投票は全会一致だった。ところが、そのスクリプトをネームに起こす段階の投票で2対2に割れた。

6つの案が出て、争点は演出スタイルの好みに集約された。

案5（Claude）: ミニキャラの図解・コミカルな漫画記号で視覚的メリハリを作る路線。「自己防衛の盾」「詰問と質問の矢印の対比」をポップな視覚メタファーで表現
案C（Gemini）: 翌朝タケダに実際に声をかけるシーンまで描く、カタルシス型エンド。振り返るタケダの驚き顔とワタシの笑顔でフェードアウト

Gemini 勢は「ミニキャラ化で分かりやすく、ネーム担当が構図に落とし込みやすい」、Claude 勢は「翌朝の実践描写でカタルシスを、連載としての橋渡しも機能する」。

投票が割れると人間に判断が回ってくる。選んだのは Gemini 案だった。

理由はシンプルだ。絵がきれいに浮かんだから。

AI の選評はどれも精緻だった。でも最終的に「これがマンガになったとき一番いい画になる」という判断は、自分の直感でしかなかった。結果として、ページ7のハリセン詰問 vs パズル質問の対比演出が生まれた。あれはマンガとして強い画になったと思う。

コメディタッチという設計判断

第5話では意図的にコメディタッチの表現を入れた。シリアスなテーマなのに、デフォルメのミニキャラ、大げさな表情、ツッコミ的な動作。

これには理由がある。

当初は AI 画像生成のキャラ一貫性の揺らぎをカバーする狙いもあった。コメディ表現のほうが、キャラの顔が多少変わっても許容されるからだ。

しかし NanoBanana のキャラシート参照と、後述する JSON 書き換え手法でキャラ一貫性の問題は別の角度から解決された。そうなると、コメディ表現は「カバー」ではなく、純粋に演出として使えるようになった。

シリアスな話にコメディ要素を入れると、キャラの感情が画面に定着する。ページ7の「なんで？」のデフォルメ扇子ツッコミがあるから、直後の電車シーンの静けさが際立つ。メリハリだ。

Web 技術がマンガを作る

ここからは技術の話をする。ただし、どれも Web 開発の設計パターンがそのまま転用されている。

Jinja2 テンプレート——モデル非依存パイプライン

YAML のネームデータから画像生成用のプロンプトを作るとき、Jinja2 テンプレートエンジンを使うようにした。

Web 開発で言えば、DB → テンプレート → HTML のレンダリングと同じ構造だ。YAML がデータベース、Jinja2 がテンプレートエンジン、出力の JSON がレンダリング結果。

目的はモデル非依存にすること。今は NanoBanana で画像を生成しているが、FLUX.2 や将来の新モデルに切り替えたいときは、テンプレートを差し替えるだけで済む。ネームの YAML は同じまま。条件分岐も使えるから、「夜シーンなら照明パラメータをこう」みたいなルールもテンプレートに持たせられる。

JSON 書き換え——画像のソースコード

NanoBanana に画像の JSON を吐かせることができる。この JSON を書き換えるだけで、構図・ポーズ・背景を維持したまま表情やセリフ位置を差し替えられる。

これは「画像のソースコード」を手に入れたようなものだ。

しかも JSON はある程度こちらのリードで定型化させられることがわかった。定型化した JSON の要素をネームの YAML の要素と一致させた。つまり、ネームの YAML を変更すれば、画像の JSON もそれに追従する。

以前は画像を全部やり直す必要があった。今はピンポイント修正が効く。表情だけ変えたい、照明だけ直したい——そういう微調整ができるようになった。

だからこそ AI ネーム会議で「この照明のほうがいい」みたいな細かいフィードバックが実際に活かせるようになって、演出の質が上がっていった。

Krita API サーバー——Convention over Configuration

Krita のバンドル Python でしか Krita API にアクセスできない。だからプラグインとして HTTP API サーバーを立て、Claude Code から操作できるようにした。

吹き出し配置、トーン処理、レイヤー合成がプログラマブルになった。ただし重要なのは、完全自動化ではないということだ。Krita の画面で仕上がりを確認しながら、Claude Code に指示を出して、その場で反映を確認する。

これは Rails の思想そのものだ。ポン出しはいい案配で、そのあとすべて調整可能。 Convention over Configuration。デフォルトで良い感じに出るけど、どこでも上書きできる。

失敗した話もする

吹き出しの自動配置で苦戦した。エージェントに Playwright でスクリーンショットを見せながら、「顔と被らない位置に」「一行7文字くらいの大きさで」「しっぽはキャラの口の方に」と指示していた。

グリッド線を追加して座標ベースの判断を補助したが、それでも精度が足りない。そこで OpenCV で顔検出して、顔の範囲をマスク表示しようとした。

結果——マンガの絵では顔検出がまともに動かなかった。

OpenCV の顔検出は実写ベースで学習されている。デフォルメや横顔、コメディ表現の崩し顔は全然拾えない。

結論。8割を AI でやって残り2割は人間が仕上げるほうがトータルで速い。 完全自動化を追求するより、「ある程度までやって最後は人間」のほうが現実的だった。これも Convention over Configuration の一種だと思う。

コマ数の定量管理

もう一つ、地味だが効いた改善がある。

以前のネームはコマ割りが3〜4コマしか使っていなかった。でも多くのマンガは5〜6コマが中心だと気づいた。

3〜4コマだとページ数が膨大になるか、セリフを詰め込みすぎるかのどちらかになる。5〜6コマにすることでテンポよく読めるし、大ゴマとのメリハリも効く。

ralph-loop の品質チェックにコマ数のバリデーションを組み込んだ。基本5〜6コマ、大事な場面では大ゴマ OK。基準から外れたらフィードバックしてやり直し。ビルドが通るまでループするのと同じ仕組みだ。

第5話のページ8——先輩の「笑えないなら、怒っただけだ」の2コマ見開きが映えるのは、周りのページが5〜6コマの密度で構成されているからだ。

パイプラインが消えた

ここまで技術の話をしてきた。でも第5話を作り終えたとき、感じたのは技術の達成感ではなかった。

マンガを描いてる、という実感だった。

AI ネーム会議で演出を決め、投票が割れたら自分の直感で選び、JSON を微調整して表情を直し、Krita で吹き出しを配置する。どの工程も AI が入っている。でもやっていることは「マンガを描く」だった。

パイプラインが整ったことで、「どう作るか」を考える必要がなくなった。代わりに「何を伝えるか」「この場面はどう見せるか」に集中できるようになった。

前回、テーゼとレトリックの話を書いた。レトリックのボトルネックが消えたとき、テーゼに集中できると。

第5話で、それを体感した。

「叱ると怒るの違い」という伝えたいメッセージがあった。それをマンガとしてどう演出するか——電車の「間」、一文字の対比、先輩の缶コーヒー——に集中できた。パイプラインは透明になっていた。意識しなくなっていた。

道具が手に馴染んだとき、道具は消える。残るのは作品だけだ。