Anthropic の『Zero Trust for AI Agents』を、自分の調査エージェント基盤に当ててみた | yatmita テックラボ

Claude Security チームが出した企業向け eBook を読んだら、便利ツールの話ではなく『作った基盤を信頼できるのか』という、自分がいま作っているものの真ん中に刺さる話だった。

出典は Anthropic・Claude Security team の eBook、Zero Trust for AI agents（PDF）。全 36 ページ。

便利機能カタログだと思って開けたら、攻撃面の地図だった

以前、Anthropic が出した業種特化のエージェント製品を基盤開発者の目で分解したことがある（「業種特化の AI ツール」だと思って開けたら、縦型エージェント基盤の設計図だった）。あのときは「権限・継ぎ目・信頼境界を、どう構成ファイルで縛るか」を読んだ。今回はその対になる文書だ——なぜそう縛るのか、縛り損ねたら何が起きるのか、を書いている。

いま自分が作っているのは、ざっくり言えば「調べて、まとめて、書く」を担う汎用エージェント基盤だ。ハイブリッド検索で資料をまとめて持ってきて、ingest → extract → compile → query のパイプラインで論理的な文章を組み立てる。題材は色々あるが、本丸は「題材」ではなく「この基盤がどこまでできるか」のほうにある。

その視点でこの eBook を開いたら、想定と違った。てっきり「Claude Code でセキュアにエージェントを動かす便利機能カタログ」だと思っていたら、もっと手前の問いを立てていた。

そのエージェント基盤は、そもそも信頼できるのか？

便利さの紹介ではなく、「あなたが作っているその実行系は、新しい攻撃面だ」と言ってくる文書だった。だから刺さった。

この文書が言っていること（三行で）

Zero Trust そのものは新しくない。NIST SP 800-207（2020）が下敷きで、原則は3つ。

何も信頼せず、常に検証する — 社内からの要求も外部 IP と同じ精査を受ける
侵害を前提に設計する（assume breach） — 防ぐより、起きたときの被害範囲を限定する
最小権限 — タスクに必要な最小限だけ与える

新しいのは、これを自律エージェントという実行系に当てたときの帰結のほうだ。

フロンティアモデルが「脆弱性発見→悪用」の時間を数ヶ月から数時間に圧縮した。攻撃側のコストは数ドル。だから摩擦（レート制限・追加の手間）でしかない防御はもう効かない。無限の忍耐とゼロコストで試行してくる相手には、面倒なだけの壁は壁ではない。
エージェントは「正規の権限・正規のバイナリ・正規の資格情報」の中で悪用される。だから従来のアクセス制御では止まらないし、ホスト監視にも映らない。

この文書が出してくる2つの語彙が、設計の解像度を上げてくれる。

Blast radius（爆発半径） — そのエージェントが壊れたとき、どこまで被害が及ぶか。読み取り専用の単一 DB なら半径は小さい。クラウド管理権限を持つなら甚大。投資はこの露出に見合わせろ、という。
Least agency（最小エージェンシー） — OWASP の造語で、最小権限のエージェント版。「何を・どれだけ・どこで」できるかまで絞る。要約ツールに送信権限は要らない、DB ツールは読み取りだけ、と。

「パイプラインのセキュリティ」か「セキュリティのパイプライン」か

読みながら一度迷ったのが、これが二義的だということだ。

パイプラインのセキュリティ — エージェントの実行経路（取り込み→推論→ツール→メモリ→連携）そのものを守る話
セキュリティのパイプライン — セキュリティ業務に AI/エージェントを使う話

この eBook の主軸は前者だ。8〜9割は「あなたが作る agentic な実行系を、各段で信頼ゼロに縛れ」という話。ingest → extract → compile → query の各ノードを、どう信頼せずに繋ぐかのチェックリストとして読める。

だが後半（Part V）で役割が反転する。「アラートキューの先頭に AI を置け」「Agentic SOAR で数秒で対応しろ」——エージェントを防御の道具として使う話になる。

そしてこの文書の一番うまいところは、その反転にすぐ釘を刺すことだ。

防御に使うエージェントにも、同じ Zero Trust を適用しろ。防御自動化を盲信するな。

つまり「セキュリティのパイプライン」を作った瞬間、それ自体が「守るべきパイプライン」になる。基盤を一つ作るとは、守るべき対象を一つ増やすこと——この入れ子が、文書全体の通奏低音になっている。

図にすると分かりやすい。Zero Trust で実行系を縛る。防御を速くするためにエージェントを足す。するとその防御エージェント自身に、また同じ Zero Trust が要る——矢印が出発点に戻る。終わりのないループに見えるが、これは欠陥ではなく、自律システムを足すという行為の正体だ。

自分の基盤に当ててみる

ここからが本題で、自分の「調べてまとめて書く」基盤に重ねると、機能の売りがそのまま攻撃面の説明になっていることに気づく。

機能の各段が、そのまま論点に化ける。取り込みは脅威に、組み立ては信頼の設計に、応答は権限の設計に。そして三つとも、同じ一点に収束する。

1. ハイブリッド検索の裏面＝ RAG ポイズニング。 「資料をまとめて持ってくる」のが売りだが、それは裏返すと汚染された資料を取り込む経路でもある。eBook は RAG ポイズニング・メモリポイズニングを脅威として明記している。出典の正しさが命の領域では、これは機能の話であると同時に信頼の話だ。

2. 「論理的文章生成」の品質保証＝トレーサビリティ。 eBook が Part III/IV で求める 来歴チェーン（どの一次資料からこの結論を導いたか辿れること） は、自分が基盤で謳いたい「論理的に組み立てる」とほぼ同じものを別の言葉で言っている。「説明可能性は規制業界では必須」という主張と、「根拠を辿れる文章生成」という売りは、地続きだった。

3. ツール権限＝ least agency。 取り込み・検索・整形・出力で、各ツールに必要最小の権限だけを与える。deny-by-default、書き込みは要るときだけ、外部送信は別承認。これは制約というより、基盤の信頼性そのものの設計だ。

結局なにを持ち帰るか

一番大きい収穫は、語彙でもチェックリストでもなく、主張の高さだ。

「便利な調査エージェントを作った」ではなく、「検証可能な知的労働のパイプラインを作った」と言えるかどうか。来歴が辿れて、権限が最小で、壊れたときの半径が見えている——そこまで設計して初めて、それは「便利ツール」ではなく「土台」になる。

そしてこの eBook 自身が、その構えで書かれている。エージェント基盤を作るとは、守るべき新しい世界を作ることだ、という構え。自分が記事で出したいトーンと、奇しくも同じだった。