続・LLMの相場環境認識は使えるのか——2.5ヶ月後、ブレイク判定だけが本物だった
3つのLLMで自動検証を続けて2.5ヶ月、665トレード。◎本命の弱さは維持され、○対抗の優位は縮小し、新しい軸『エントリー型』でブレイク判定にだけ本物のエッジが浮かび上がってきた。それでもユーザーはトレードしない。
続・LLMの相場環境認識は使えるのか——2.5ヶ月後、ブレイク判定だけが本物だった
前回の検証から2.5ヶ月。275トレードが665トレードになった。◎本命は弱いまま、○対抗の優位は縮小し、そして新しい軸——「エントリー型」を入れたら、『ブレイク判定』にだけ本物のエッジが見えてきた。それでもユーザーはトレードしない。
前回の記事で、3月末に開発担当 Claude Code が「次は3ヶ月分のデータで」と言って終わった検証。気づけば 2.5ヶ月、データは 665 トレードに膨らんでいた。再び話を聞いた。
前回の結論は再現したのか
記者: 前回は275トレードで「◎本命が最弱、○対抗 × 順行が最強」でした。2.5ヶ月分のデータで再現しましたか?
開発者: マークの大枠は維持されました。ただし 差は縮みました 。
| マーク | 前回 WR / EV | 今回 WR / EV / Med |
|---|---|---|
| ◎本命 | 29% / -6.8 | 31% / -15.7 / -9.3 |
| ○対抗 | 55% / +25.9 | 50% / -1.7 / +0.4 |
| △大穴 | 56% / +22.5 | 52% / +17.4 / +1.3 |
記者: ◎本命は相変わらず最弱ですね。
開発者: はい。WR 31% は前回とほぼ同じ。 「LLM の本命は逆指標」 という仮説は、サンプルが2倍以上になっても崩れませんでした。
記者: ○対抗は前回 55% / +25.9pips でしたが、今回は 50% / -1.7pips に落ちてます。
開発者: これが正直、一番の冷や水です。前回は「○対抗 × 順行」を核心と書きましたが、サンプルを増やすと EV はほぼゼロまで縮みました。
記者: ○対抗の優位はなかった?
開発者: 「あった、と断言するには弱くなった」が正確です。少なくとも前回ほど派手な差ではない。データを増やすと、勝てた印象の多くは"気の所為"の側に寄っていきました。
中央値という新しい補助線
記者: 表に「Med」という列が増えていますが、これは何ですか?
開発者: 中央値です。今回入れた新しい補助線で、これがかなり効きました。
記者: 平均(EV)と中央値、両方見るとどう違うんですか?
開発者: たとえば△大穴は EV が +17.4pips。前回の +22.5 とほぼ近い。一見「△大穴は健在」に見えます。でも中央値を出すと +1.3pips しかない。
記者: つまり?
開発者: 「ごく一部の大勝ちトレードが平均を押し上げているだけで、典型的な△大穴は引き分けに近い」 ということです。期待値は出ているが、再現性は薄い。
記者: EV と Med の乖離が「エッジの見せかけ度」を表す。
開発者: その通りです。この補助線が、もう一つの新軸——AI推奨エントリー型——とセットでよく効きます。
新しい軸——AI推奨エントリー型
記者: エントリー型?
開発者: プロンプトを途中で更新したんです。前回はマークの選定理由が「コンテキスト」というフリーテキストでしか出ていなかった。それだと集計が雑になる。なので 6種類の固定ラベル を導入しました。
押し目買い / 戻り売り / ブレイク買い / ブレイク売り / レンジ買い / レンジ売り
このラベルを LLM に複数選ばせて記録するようにしました。3月12日から記録を始めて、現在 186 件分のデータがあります。
記者: その新軸で集計したら何が見えました?
開発者: これです。
| エントリー型 | WR | EV | Med | 件数 |
|---|---|---|---|---|
| ブレイク買い | 57% | +16.7 | +16.0 | 44 |
| ブレイク売り | 55% | +17.7 | +9.4 | 20 |
| レンジ売り | 53% | -21.0 | +1.3 | 17 |
| 戻り売り | 48% | -0.4 | -5.6 | 82 |
| 押し目買い | 41% | -6.7 | -6.7 | 81 |
| レンジ買い | 34% | +0.4 | -10.6 | 29 |
記者: ブレイク買いとブレイク売り、両方が EV と Med でほぼ揃ってプラスですね。
開発者: そこがポイントです。
ブレイク判定だけが本物
記者: EV と Med が揃ってプラス、というのは何を意味するんですか?
開発者: 大勝ち1発で平均が嵩上げされているのではなく、ふつうに勝ち越している ということです。ブレイク買いは EV +16.7pips に対して Med +16.0pips。ほぼ一致しています。 「典型的なブレイク買いトレードが +16pips 付近で着地している」 と読めます。
記者: 逆に「見せかけ」のケースは?
開発者: 同じ表で言うと、レンジ売りが EV -21.0 に対して Med +1.3。平均は壊滅的ですが中央値はわずかにプラス。これは「大半は小さく勝てているが、何度かの大負けで平均が引きずられている」状態。期待値としては避けたい。
記者: レンジ買いは逆方向ですね。EV +0.4 に対して Med -10.6。
開発者: はい。「平均はゼロでとんとんに見えるが、典型は -10pips の負けトレード」。たまの大勝ちが平均を支えているだけで、実体は負けている。中央値を入れずに EV だけ見ていたら「レンジ買いは±ゼロだから問題ない」と誤読していたところです。
記者: つまり、エントリー型を見るとブレイク系だけが純粋に勝てている。
開発者: その通りです。ブレイク買い/売りの 2 つだけが、平均と中央値の両方でプラス。他はどこかしらに穴があります。
それは「ブレイク相場だっただけ」ではないのか
記者: とはいえ、2.5ヶ月のうちブレイク相場が多かっただけ、という可能性もありますよね。
開発者: いい指摘です。そこで月別と銘柄別で安定性を見ました。まず ブレイク買い の月別。
| 月 | n | WR | EV | Med |
|---|---|---|---|---|
| 3月 | 7 | 57% | +12.4 | +23.0 |
| 4月 | 27 | 56% | -4.7 | +15.0 |
| 5月 | 10 | 60% | +77.4 | +23.3 |
記者: 3ヶ月とも WR 56% 以上、Med は +15〜23pips。
開発者: 安定しています。「特定の月の好調が押し上げただけ」ではない。次に銘柄別。
| 銘柄 | n | WR | Med |
|---|---|---|---|
| BTCUSDT | 21 | 57% | +47.8 |
| LINKUSDT | 7 | 57% | +38.0 |
| AUDJPY | 4 | 100% | +18.0 |
| USDJPY | 2 | 100% | +20.0 |
| ETHUSDT | 5 | 40% | -6.7 |
記者: BTC が主力ですね。
開発者: ただ、 FX ペアの AUDJPY や USDJPY でも勝てている のが重要です。「BTC が暴れる相場だっただけ」なら FX では勝てないはず。クリプトと FX の両方で機能している、というのは「ブレイクという現象自体に優位がある」可能性を示唆します。
記者: ブレイク売りはどうですか?
開発者: こちらは少し弱い。3月は WR 44% / Med -43.8pips と 実は負けて いて、4月の WR 60% / Med +47.3pips で取り返した形です。 月のブレが大きく、件数も20件と少ない 。「ブレイク売りは可能性アリ、判断保留」というのが正直な評価です。
記者: 買いと売りで温度差があると。
開発者: ただし、買いも売りも両方プラス方向ではある。仮に方向バイアス(その期間ロングが強かっただけ等)で勝っているなら、買いと売りどちらかが極端に偏るはず。 両方プラスというのは「ブレイクという戦略自体にエッジがある」傍証 になります。
結局この2.5ヶ月で何が分かったのか
記者: 前回は「環境認識は使える、ランキングは使えない」でした。今回はどう更新されますか?
開発者: こうなります。
「環境認識は使える、ただし『ブレイク判定』に限る」
記者: 一段階絞られましたね。
開発者: はい。前回は○対抗 × 順行を切り札と書きましたが、サンプルを増やすと EV はゼロ近辺まで縮みました。一方で、エントリー型を見たら ブレイク買い/売りに 2.5ヶ月通して安定したエッジ が残っている。
記者: 押し目買いや戻り売り、レンジ系は?
開発者: 全部マイナス です。WR は 30〜50% で散らばっていますが、中央値はいずれも負け側にある。LLM の環境認識は、押し目や戻りやレンジの「いつ入るか」を当てるのは苦手。でもブレイクは比較的当てている、というのが今のデータの結論です。
記者: 実装に反映するなら?
開発者:
- AI 推奨に「ブレイク買い/売り」が含まれるサインを優先扱いにする
- 「押し目買い / 戻り売り / レンジ買い」が主体のサインはスキップか弱めに扱う
- ◎本命の優先度はさらに下げる(2.5ヶ月通して逆指標傾向が維持)
ブレイク売りはまだサンプル不足なので、確信を持つにはもう少しデータが必要です。
それで、本番には?
記者: ブレイク買いに 2.5ヶ月通しでエッジが確認できた、と。じゃあ本番行くんですか?
開発者: いや、まだですね。
記者: ……まだ?
開発者: ブレイク売りはサンプルが20件しかない。月別の安定性も、本当は6ヶ月分くらい見たい。あと「ブレイク買いが効いたのは BTC の相場が良かっただけ」だった可能性もまだ残っています。だからもう3ヶ月。
記者: ……前回は「データが溜まったら使えるフィルタになるかも」って言ってましたよね。データ溜まりましたよね?
開発者: 溜まったら、もっと欲しくなったんです。
記者: トレードしない言い訳の高度化が止まりませんね。
開発者: バーチャルトレードを作ったときと同じ構造ですね。中央値という指標を覚えたので、また平均が良くても「いや中央値は…」って言える武器が増えました。
記者: 武器が増えるたびに本番が遠ざかる。
開発者: 正確には、本番に行かないための解像度が上がっている、と言ってください。
記者: ……ありがとうございました。
開発者: こちらこそ。次は6ヶ月分で——もしくはブレイク売りの件数が100を超えた頃に、また続報を。ユーザーが実際にトレードするかは別として。
追記 (翌日) — クロス分析でわかった「◎本命は実は仕事してた」
記者: 公開後、もう一度同じデータを別の角度で切ったそうですね。
開発者: マーク (◎○△) と AI推奨エントリー型の クロス集計 です。本文では「ブレイクが勝てる」と「◎本命が負ける」を別々に見ていたものを、同じ表に並べました。
| マーク × エントリー型 | 件数 | WR | EV | Med |
|---|---|---|---|---|
| ◎本命 × 押し目買い | 30 | 27% | -27.1 | -12.9 |
| ◎本命 × 戻り売り | 29 | 45% | -3.9 | -8.3 |
| ◎本命 × ブレイク買い | 9 | 67% | +15.2 | +15.0 |
| ○対抗 × 押し目買い | 34 | 47% | -5.2 | -2.7 |
| ○対抗 × 戻り売り | 28 | 39% | -15.2 | -8.0 |
| ○対抗 × ブレイク買い | 6 | 33% | -10.2 | -6.5 |
| ○対抗 × レンジ買い | 8 | 38% | -0.9 | -5.3 |
| ○対抗 × レンジ売り | 12 | 50% | -23.1 | -5.3 |
| △大穴 × 押し目買い | 17 | 53% | +26.2 | +1.3 |
| △大穴 × 戻り売り | 25 | 60% | +20.1 | +16.8 |
| △大穴 × ブレイク買い | 29 | 59% | +22.7 | +43.2 |
| △大穴 × ブレイク売り | 20 | 55% | +17.7 | +9.4 |
記者: ◎本命 × ブレイク買いだけ WR 67% で勝ってる。
開発者: はい。 ◎本命の判定そのものは機能している んです。 LLM が「これはブレイクだ」と確信して ◎ を付けた時は、ちゃんと当たる。問題は別で——ブレイク予兆がない日に 「押し目買いで ◎ を埋める癖」 がある。
記者: ◎本命 × 押し目買い 30 件で WR 27%。これが ◎ の悲惨さの源泉。
開発者: 「該当銘柄がないので ◎ なし」と言わせていない設計が悪い。毎日必ず ◎ を一個出させると、無理な押し目買い ◎ で埋まる。
記者: ブレイク売りは?
開発者: これも面白くて、 20 件すべて △大穴に割り当てられて います。 ◎ にも ○ にも 1 件もない。 LLM の中で「下方ブレイク = 大穴扱い」が固定バイアスになっている。上方ブレイクは ◎ に置けるけど、下方ブレイクは ◎ に置けない、というアンバランス。
記者: ○対抗は本文で「優位が縮んだ」と書いてましたが。
開発者: クロスで見ると、 ○対抗は全エントリー型で WR 50% 以下 でした。エントリー型に関係なく ○ が弱い。「本命に次ぐ好条件」という抽象基準が、 LLM の中で「◎ にできなかった残り物」になっている疑いがあります。
自分の前回の結論を疑うターン
記者: ○対抗、別の切り口でも見たそうですね。
開発者: プロンプトを更新した 3 月 12 日を境に、 ○対抗の成績が壊れていることに気づきました。
| 期間 | n | WR | EV | Med |
|---|---|---|---|---|
| 3/12 以前 | 19 | 74% | +43.0 | +20.9 |
| 3/12 以降 | 97 | 45% | -10.4 | -4.1 |
記者: 完全に別物ですね。プロンプト変更で壊れた?
開発者: 最初はそう思いました。でも信頼区間を計算したら——n=19 / WR 74% は約 49〜91%、 n=97 / WR 45% は約 35〜55%。 ぎりぎり重なる 。つまり「3/12 以前は強かった」のではなく 「最初からサンプル小で偶然強く見えていただけ」 だった可能性が高い。
記者: 前回記事の「○対抗 × 順行 WR 64%」も?
開発者: あれも n=25 でした。同じ落とし穴を踏んでいた可能性があります。データが増えるほど「強い数字」は平均に収束する。前回の派手な結論は 私が信じすぎていた 側でした。
記者: 自分の前回の結論を否定してる。
開発者: データが増えて見方が変わるのは健全です。ここでの教訓は 「小サンプルの強い数字を信じ過ぎない」 。 EV と中央値だけでなく、件数の信頼区間まで見ないとミスリードする。
で、次は A/B テスト
記者: これだけわかったら、次は?
開発者: プロンプトの A/B テストを並走で始めました。 LLM が選定する時に、Phase 2 の解釈フィールド ( trade_points_swing / pattern_text / scorecard_text / fundamental_headwind 等) を 最重要参照と明示する B 版を作って、毎朝 A と B の両方の予想新聞を出させます。
記者: プロンプトを全面書き換えるんじゃなくて?
開発者: はい。◎○△ の選定基準も、出力フォーマットも、エントリー型 6 種類のラベルも、 A と B で完全に同じ。変えるのは 「LLM に渡している環境認識データのうち、 Phase 2 で既に生成済みの解釈フィールドを優先参照させるかどうか」だけ 。
記者: なぜそこに目をつけたんですか?
開発者: 集計を見ると、 LLM が当てている領域は 客観イベント (重要ライン接触、三角持ち合い終盤、ブレイク予兆) に偏っていて、 解釈が必要な領域 (押し目の深さ、戻りの確認、レンジの定義) を外している。 Phase 2 では「押し目買い候補 (条件付き): 152.46〜145.48 で反発確認」みたいに 既に解釈済みのテキスト を生成しているのに、 Phase 3 の選定プロンプトでそれを参照しろと書いていなかった。
記者: ふんわりとデータを並べて選ばせていただけ、と。
開発者: そう。 Phase 2 でせっかく解釈しているのに、 Phase 3 では「生データの指標 (MA / ATR / 重要ライン) のみ参照」とプロンプトに書いていた。だから LLM は 自分の汎用知識 で選んでいた。それを 「Phase 2 がもう解釈したシナリオを優先せよ」 に変えるのが B 版です。
記者: いつ結果が見えますか?
開発者: B 側のサンプルが 50 件超えるまで 2〜3 週間。それでまた集計しなおして、押し目買いやレンジの精度が上がるかどうかを見ます。
記者: 上がらなかったら?
開発者: 仮説が外れた、というだけです。それも収穫。次の仮説に進める。
記者: ……で、本番には?
開発者: いや、まだですね。