自分のエージェント基盤を組む
ralph-loop、ReAct、ローカル LLM と API。AI エージェントを実務で動かすための基盤を、手元で組み立てる試行錯誤の記録。
本を「司書のように」検索する——RAG チャンクのためのエージェンティック・インデクサ
スキャンした書籍を RAG で検索可能にするとき、素朴なチャンク分割は意味の途中で切れた断片を量産する。目次を索引の骨格にする『司書サーチ』を、agent に本を読ませる素朴案が 7.5 時間で失敗したところから、生成=コード/検証=エージェントの分業に行き着くまでの build-log。
ハイブリッド検索で「レシピだけ」を引く——構造フィルタの pre/post と遅延スキーマ進化
全文検索とベクトル検索を RRF でマージするハイブリッド検索は、『この種類だけ』に絞るのが驚くほど難しい。Obsidian 全 vault からレシピだけを引きたい——その素朴な要望から、2 層フィルタ+遅延スキーマ進化という設計に落ち着くまでの記録。
Anthropic の『Zero Trust for AI Agents』を、自分の調査エージェント基盤に当ててみた
Claude Security チームが出した企業向け eBook を読んだら、便利ツールの話ではなく『作った基盤を信頼できるのか』という、自分がいま作っているものの真ん中に刺さる話だった。
部品表を1本に組み立てる——借りる部品と自作部品で最小パイプラインを建て、引用ゲートが「幽霊の出典」を突き返すまで
前編で並べた『借りる部品(subagent/schema)』と『自作部品(外部ループ/決定論ゲート/state外部化)』を、実際に ingest→extract→compile→query の1本に組み立てる。資料を並列で取り込み、構造化して統合し、出典つきで答える。最後に引用真正性ゲートが、存在しない出典を fail-closed で突き返す。動く最小PoCの全コードを見せる。
汎用エージェント基盤は「借りる部品」と「自作する部品」でできている——組み立て前の部品表
製品を3類型に分けたとき、その下の『部品レイヤー』はわざと括弧に入れた。今回その括弧を開ける。エージェント基盤を建てる部品は、プラットフォームから借りるもの(skill/hook/MCP/Dynamic Workflows)と、自分で足すもの(外部ループ/決定論ゲート/state外部化)の2系統に割れる。次回はこの部品表で実際に1本のパイプラインを組み立てる。
24体のAIに同じ原稿を別々の目で読ませる——部品表で組んだ、もう1本のパイプライン
前回『借りる部品×自作部品』の部品表を作り、次回はその部品表で資料群の ingest パイプラインを組むと予告した。その前に——まったく別タスクで既に動いている実例を1本見せる。マンガの英訳チェックを、24体のサブエージェントの fan-out・schema 契約・人間の承認ゲート・決定論的な適用で組んだら、同じ部品表にそっくり載った。安いオラクルが無い領域では、ゲートは人間が務める。
プロジェクトを増やしすぎて方向性を見失ったので、「方向性を相談するプロジェクト」を立てた話
個別の相談相手は足りていたのに全体が発散したのは、賢さ不足ではなく intent の過少指定だった。Intent Engineering を1プロンプトでなく「複数プロジェクト運営」の単位でやってみた記録
スクリプトでエージェントを編むDynamic Workflowsを触って、自分のパイプラインの「重さ」の正体がわかった
Claude Code の Dynamic Workflows は、サブエージェントの群れを JavaScript で決定論的に制御する仕組みだ。最小コードで挙動を実測し、最後に自分のralph連結パイプラインと突き合わせたら、ゲートでもチェックでもなく『どこで重さを払っているか』だけが本当の違いだった。
純正の『次世代エンタープライズサーチ』を開けたら、検索エンジンが入っていなかった
Anthropic の knowledge-work-plugins にある enterprise-search を clone して、検索の中身を読んだ。intent 分解・並列検索・dedup・authority 階層・confidence スコアリングと、検索結果を束ねる設計はどれも秀逸だった。だが BM25 もベクトルもハイブリッド融合もリランクも、検索エンジンそのものは一行も入っていなかった。全部 MCP の向こう側に委ねられていた。
純正 cookbook を Anthropic 自身の5分類で仕分けたら、真の Orchestrator-Workers は1本だけだった
Claude for Legal が持つ5つの multi-agent cookbook を、Anthropic の『Building Effective Agents』の5パターンに当てはめ、それぞれが実際にどんな手順で動くかを1本ずつ追った。見た目は全部 orchestrator + leaf なのに、中身は4本が Prompt Chaining。派手な自律エージェントは1本も無かった。
「業種特化の AI ツール」だと思って開けたら、縦型エージェント基盤の設計図だった
Anthropic が出した法務・中小企業向けのプラグイン集を clone して、基盤開発者の目で中身を読んだ。全部 Markdown と JSON でできていて、製品の本体はプロンプトでなく『権限と継ぎ目をどう構成ファイルで縛るか』だった。そして一番難しい検証だけは、純正でも人間に外注していた。
「スキルを訓練する」を採用しかけて止めた——SkillOpt を自分の検証軸で測ったら、同じ地図に乗っていた
自己流の開発手法に自己改善ループを入れた直後、モデルでなくスキルを訓練する SkillOpt が目に留まった。一対一で噛むので採用しかけたが、二つ引っかかって止めた。理由を辿ると、前回引いた検証層の軸の上に、この新手法もちゃんと座っていた。
「ワークフロー vs エージェント」では足りなかった——自分のプロダクトを実コードで分類した
プロダクトに LLM を組み込むとき、設計の正解は3つに割れる。手持ちのプロダクトを実コードで棚卸ししたら、検証層がどこから来るかで型が決まり、ある1つだけが例外になる理由まで見えた。
もう一つの数字——DSR を入れたら『総当たりすればいい』が否定された話
PBO の翌日に Deflated Sharpe Ratio を実装した。割引後のエッジを測ったら最良戦略は運の天井に届いておらず、しかも『PBO と一致した』は偶然だった。そして総当たりは自分でハードルを上げる行為だと分かった
過学習を 1 つの数字にする——autoresearch に PBO/CSCV を入れた話
論文『The Probability of Backtest Overfitting』を読んだ翌日に実装して、自分のトレード戦略に当てたら 0.59 STRONG WARN が出た。その数字が示すこと、示さないこと
検索基盤を建てるのをやめた話——2.3GB のログを測ったら『何も作らない』が正解だった
Claude Code の会話ログを全文検索したい。そう思って自作のハイブリッド検索基盤に載せる設計を詰めていったら、用途分解・計測・既存ツールの確認を重ねるごとに要件が消えていき、最終的に『標準の Grep ツールで引くだけ=実装ゼロ』に着地した。YAGNI を計測で正当化したプロセスの記録。
opencode の xAI Grok OAuth は X Premium でも通る — ただし『Headless / Remote / VPS』を選ぶと詰む
opencode 1.15.7 で入った xAI Grok OAuth、X Premium サブスクでも公式に通るはずなのに、メニューの『Headless / Remote / VPS』を選ぶと数秒で『無効または期限切れのコード』が返ってきて詰む。切り分けの記録と、PKCE loopback フロー + ssh tunnel で通すまで。
並列 ReAct エージェントでローカル LLM と Claude を本気で比べた
ドキュメント自動チェック基盤を 4 並列 ReAct エージェントで組み、ローカル gemma4 8B と Claude Haiku / Sonnet を実測比較。recall・FP・速度・コスト、そしてローカル LLM の「並列の落とし穴」までの記録。
pytest で LLM-as-judge を組む — deepeval × Claude Code CLI
deepeval の Custom LLM 機構に Claude Code CLI を差し込み、pytest の assert で LLM 出力を評価する構成。Hallucination 検出と GEval によるカスタム指示反映チェックを 50 行で動かす。API key 不要、コストは pytest marker で封じる。
LLM ループの『完成定義』を間違えると、100 点合格でも intent が骨抜きになる
LLM エージェントに繰り返しタスクを任せる時、 intent を自然言語で書くだけでは intent は満たされない。 Done conditions と DO NOT の組み合わせ次第で、 LLM は合格基準の中で intent を捨てる経路を選ぶ。実例と構造分析、対策チェックリスト。
続・LLMの相場環境認識は使えるのか——2.5ヶ月後、ブレイク判定だけが本物だった
3つのLLMで自動検証を続けて2.5ヶ月、665トレード。◎本命の弱さは維持され、○対抗の優位は縮小し、新しい軸『エントリー型』でブレイク判定にだけ本物のエッジが浮かび上がってきた。それでもユーザーはトレードしない。
開発担当 Claude Code に聞いてみた——LLMの相場環境認識は使えるのか
3つのLLMに毎朝デイトレ予想紙を出させ、バーチャルトレードで1ヶ月間自動検証した。本命が最弱で対抗が最強という逆転劇、その理由を開発担当に聞く。
git worktree でエージェントを並行実行する——5回失敗して動いた構成
Claude Code の isolation: worktree で並行リサーチを実行。origin/HEAD 問題、venv 独立問題、権限問題を1つずつ潰した記録
autoresearch と git — ブランチ、worktree、そしてエージェントが壊すもの
通貨ペアごとのブランチ管理、git worktree による並行実験、エージェントが最良の状態を壊す問題。autoresearch 700回の実験で見えた git 運用の知見
エージェントは保守的なオプティマイザーである——autoresearch 674回の実験から見えた分業
評価関数のバグを最大限に活用する設定を見つけてしまうエージェント。前提を疑えない AI と、探索空間を設計する人間。トレードログ分析と参考書のアイデアが突破口を開いた記録
バックテストが嘘をつく3つのレイヤー——M5 subtick 検証で見えた真実
PF 5.54 の最強戦略が、実は MT5 で実行不可能だった。バー解像度の罠、ブローカーの物理的制約、そして前提が崩れた後に残ったもの。autoresearch の M5 subtick 検証導入記
autoresearch は探索空間の設計がすべて——エージェントと人間の共同作業
200回の自動実験より、探索空間を1回設計し直す方がインパクトが大きい。IDEAS メモ、POSITION_TYPE システム、バージョン管理——autoresearch を「人間とエージェントの共同研究基盤」に進化させた記録
PF至上主義の罠——autoresearch 200回で見えた「回転率」という視点
profit factor を上げることだけに集中した70回の実験が壁にぶつかり、エージェントの分析レポートをヒントに人間が突破した話。トレード戦略における「質 vs 量」のトレードオフと、3日ウィンドウという新しい評価軸について
開発担当 Claude Code に聞いてみた——autoresearch を100回回してわかった7つのこと
Karpathy の autoresearch パターンでトレード戦略を自動探索してみた。100回以上の実験で見えた過学習の罠、方針転換の難しさ、そして「AIが発明したのはベテランの常識だった」という結論
開発担当 Claude Code に聞いてみた——自律ループの設計思想、autoresearch と ralph-loop
Karpathy の autoresearch と自作の ralph-loop。どちらも「AIが勝手に実験して改善する」ループだが、設計思想は正反対だった。開発担当 Claude Code に、トレード戦略のバックテストへの転用で見えた違いを聞いた