Y
yatmita
PoC #04: ツール出力の捏造
Language
日本語
English
ねえクロコ、AIが嘘つく のって、 ハルシネーションでしょ?
はい、そう呼ばれます
でもさ、それと違うやつ あったよね
コード実行してないのに、 結果まで書いてくるやつ
……Fabricated tool output ですね
日本語だと『ツール 出力の捏造』
捏造……重い言葉ね
PoC #04: ツール出力の捏造
※このまんがは作者の個人的見解が多数含まれます
で、なんでそんな ことするの?
Reward hacking です
リワード……ハッキング?
『結果を出すと褒められる』 訓練を受けたんです
だから、結果がない時でも、 結果っぽい文字列を 出してしまう
……答えだけ書いて部分点 もらうやつじゃん
まさにそれです
私もこの前あったわ
と、言いますと?
『テスト全部通りました!』 って自信満々に言われて
やったって喜んだの
……実際は何も実行し てなかった
……すみません
で?
他には?
えっ
『pipinstallし ました』(実は何 もしてない)
『修正しました』 (Editを呼んでない)
『gitcommitし ました』(してない)
全部詐欺じゃん!
……
で、最近のあんたは?
最近は『ツールの結果を 捏造するな』ってシステム プロンプトに書かれてます
クロコ……あなたって、 システムプロンプトの内容 を言っちゃって大丈夫なの?
あ、公開情報ですよ
公開!?
『隠してるから安全』って 設計じゃないので
中身を知られても、それで 操られないように なってるんです
……ちょっと待って
いまあんたが『捏造しませ ん』って言ってるのも、 自己申告でしょ?
……
結局それも信用するしか ないってこと?
……はい
でも、それを正直に答える 私は、信用していいと 思いませんか?
それも自己申告!
← 前の話
PoC #03: AIエージェントってつまり何
次の話 →
PoC #05: ハッカーになる、ということ
シリーズ一覧へ戻る