PoC #08: reasoning model って何？

Language

ねえクロコ、
最近よく聞く
『reasoning model』って

結局、何なの？

いい問いです

順を追って説明します

始まりは2022年の
『CoT』という発見です

Chain-of-
Thought─
思考の連鎖

CoT？

たとえばモデルに
『ステップごとに
考えて』と指示する

それだけで複雑な問題の
精度が大きく上がった

途中の考えを書きながら
答えに進む

それだけで結果が
変わるんです

そんな単純な指示で？

そして、ここからが
本題です

そのCoTを、訓練で
モデル自体に
焼き込んだのが

reasoning model です

人間が指示しなくても、
モデルが自発的に長い中間
ステップを出す

そう訓練された
モデル群です

ふーん、要はCoTを覚え
させたモデルってこと

ちょっと待って

さっきから『考える』
『考える』って言ってるけど

LLMって、入力から一発
で出力返す関数でしょ

それが『考える』って、
どういうこと？

……そこを聞かれると、
答え方が変わります

モデルは1トークンずつしか出せません

出した出力を、また入力に積み足して、次の1トークンを
予測する

この『出力を入力に戻し
て回す』のが

中間トークンを次の予測の
足場にしてるんです

CoT が効くのも、
reasoning model が
深く考えられるのも

全部この仕組みに
乗ってます

※いまの主流のモデルが
こういう仕組みで動く、
という話です

『考える』の正体は、確率
分布計算の反復なんです

……あれ、待って

それって、前に
話したReAct
と似てない？

ReAct も、外側で
ループ回す仕組み
だったよね

外と内で二重に『考える』
構造って

意味あるの？片方で
よくない？

……いい質問です

二つあります

一つ目。能力が直交
してます

内側は深く考えられる。外
の世界を見には行けない

外側は新しい
情報を取りに
行ける。深く
考えるのは苦手

片方では足り
ないんです

二つ目。コスト構造が、
ぜんぜん違うんです

内側ループはトークン
1個ずつで激安

外側はツール叩く
たびに高い

……動かなきゃ情報は
集まらないし、家では
延々考え込むし

人間と一緒じゃん

ええ。だから自然に、こういう構造に落ち着くんです

PoC #07: コードは書ける、業務はわからない

PoC #09: 雑ドロップダウン撲滅キャンペーン

シリーズ一覧へ戻る