Yyatmita

AI 100 人にアンケートを取ってみた——LLM ペルソナで市場検証は成立するか

claude / gpt / gemini の 3 モデルに 100 人ぶんの架空ペルソナを演じさせ、自作サービス『毎日開運クエスト』への 16 問アンケートを並列実行。Argyle 2023 / Aher 2023 / Park 2023 など先行研究を引きながら、AI ペルソナ調査がどこで実調査に似て、どこで似ないかを検討する。コスト $0、所要時間 3 分の build-log。

自分のエージェント基盤を組む#agent-stack#llm-persona#market-research#survey#llm-comparison

「ローンチ前のサービスの市場を、実ユーザー集めずに検証できないか」という古い問いに、LLM がここ数年で新しい答えを差し出している。架空のペルソナを LLM に演じさせ、そこに対してアンケートを回す——通称 silicon sampling と呼ばれる手法だ。本稿は自作の LINE 占いサービス『毎日開運クエスト』を題材に、claude / gpt / gemini の 3 モデルに 100 人分のペルソナを分担して演じさせ、16 問のアンケートを コスト $0・所要時間 3 分 で回した試みを記録する。途中で発見したバグや、AI ペルソナ調査の落とし穴も含めて全部残す。


1. silicon sampling という発想

LLM の世界では、ここ 2-3 年で「LLM ペルソナでアンケートをシミュレートする」という研究が立て続けに出ている。

  • Argyle et al. (2023) "Out of One, Many: Using Language Models to Simulate Human Samples"Political Analysis)。GPT-3 に米国の有権者ペルソナ(年齢・性別・人種・政治指向・州)を条件付け、2012 / 2016 / 2020 年の 大統領選投票結果を再現 できることを示した。 silicon sampling という言葉はこの論文に由来する。
  • Aher, Arriaga & Kalai (2023) "Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies" (ICML 2023)。Milgram の電気ショック実験・Ultimatum Game・Wisdom of Crowds など、古典的な被験者実験を LLM で再現できるかを系統的にテスト。一部は再現、一部は失敗。
  • Horton, Filippas & Manning (2023) "Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?" (NBER WP 31122)。GPT を「経済主体(homo silicus)」に見立て、最低賃金・不当解雇・公平性ゲームなどに対する反応が、現実の人間 homo sapiens の調査結果と整合する場面が多いことを示した。
  • Park et al. (2023) "Generative Agents: Interactive Simulacra of Human Behavior" (UIST 2023, Stanford × Google)。25 体の LLM エージェントを町に住まわせて自発的な日常生活を観察。アンケート文脈ではないが、「LLM が安定した人格として持続して振る舞える」ことの強い実例。
  • Dillion et al. (2023) "Can AI language models replace human participants?"Trends in Cognitive Sciences)。心理学研究で人間被験者を LLM に置き換える是非を批判的に総説。「個人内一貫性は高いが、人類全体の意見分布は再現しない」と慎重な評価。
  • Bisbee et al. (2024) "Synthetic Replacements for Human Survey Data?"Political Analysis)。米国 ANES(American National Election Studies)の 属性別意見分布が GPT で再現できるかを厳密に比較。シニアや少数派は再現精度が落ちる と報告。

ざっくりポジティブな主張

  1. 属性条件付け(demographic conditioning)が効く。「年齢・性別・政治指向」を system prompt に書いて答えさせると、答えがその属性の現実分布に近づく(Argyle 2023)。
  2. モデル内一貫性が高い。同じペルソナを別の質問にぶつけると、人格として整合した答えが返る(Park 2023)。
  3. 古典実験は半分くらい再現できる。少数派ジレンマや囚人のジレンマなどは復元される(Aher 2023, Horton 2023)。

そしてネガティブな注意

  1. 「平均的な意見」へのバイアス。LLM は silent majority の答えに引きずられがちで、極端な意見が消える(Bisbee 2024)。
  2. シニア・少数派の再現が弱い。学習データの偏りが反映される(Bisbee 2024)。
  3. 「賢い学生のような答え」になる。被験者全員が IQ 130 の修士課程院生のような回答をする傾向(Dillion 2023)。
  4. 生成プロンプトと回答プロンプトの乖離。ペルソナを作る LLM と回答する LLM が同じだと、自分の生成した属性に「正解」を返してしまう自己循環が起こる。

ここまでが先行研究の地ならし。「全部本物に置き換えるのは無理だが、ローンチ前の方向性検証になら十分使える」——というのが現時点のコンセンサスに近い。


2. 何を検証したかったか

題材は手元の自作プロジェクト 毎日開運クエスト。LINE で毎朝、奇門遁甲と六十甲子納音から導かれる「今日の小さな化解(ファージエ)」を 1 つ届けるサービスである。占いではなく、運気の流れに合わせて手を打つ 実践エンタメ として位置づけている。 6 月 29 日公開予定で、まだ一人もユーザーがいない。

未着手の状態で測りたかったのはこの 4 つ:

  1. 「占いではなく化解」というフレーミングが伝わるか
  2. narration の語彙(海中金・景門・気の通り道)が読めるか
  3. 月額 ¥480 / 単発 ¥120 という価格はどう受け取られるか
  4. どんな属性の人がコアユーザーになりうるか

人間 100 人を集めるなら時間と金が要る。LLM 100 人なら、検証 PoC として 失うものがない


3. 設計

3.1 ペルソナ生成

claude -p(Claude Code の headless 実行・sub OAuth 経由でコスト 0)で opus モデルに 100 人一括生成を依頼した。1 回の API 呼び出しで 100 人

軸は 7 つに固定して、各軸の 下限人数を最低保証する:

axes:
  age_band: 20-29 (18%, 最低12) / 30-39 (28%, 最低20) /
            40-49 (25%, 最低18) / 50-59 (19%, 最低12) / 60+ (10%, 最低5)
  gender: 女 (55%, 最低45) / 男 (42%, 最低35) / その他 (3%, 最低2)
  region: 都市 (65%, 最低55) / 地方 (35%, 最低25)
  divination_interest: 高 (30%, 最低22) / 中 (40%, 最低32) / 低 (30%, 最低22)
  line_freq: 毎日複数回 50% / 毎日 25% / 週数回 15% / 月数回 7% / ほぼ使わない 3%
  self_dev_interest: 高 30% / 中 45% / 低 25%
  payment_history: 無料消費型 70% / 月額型 45% / 単発購入型 55% / 無課金 18%

意図的に「極端層も含める」設計である点に注意。日本の現実分布では「占い高関心」は 30% もない(おそらく 5-10% 程度)。極端層も含めるのは、Argyle 2023 が指摘する「極端な意見が消える」現象に対する自衛と、コアファン層の解像度を上げるため。これが後で大きな落とし穴になる。

生成プロンプトでは「占い高関心の女性 30 代だけに偏ってはいけません。コンセプトに反発しうる層を必ず含めることが PoC の価値です」と明示し、background を 2-3 文の具体的な人物像にした。

3.2 モデル割り当て

100 人をランダムに 3 モデルへ分配(seed=20260619):

  • opus (claude-opus-4-7): 34 人
  • gpt (codex 経由): 33 人
  • gemini (opencode 経由・github-copilot/gemini-2.5-pro): 33 人

各ペルソナの回答を 異なるモデル で取ることで、モデル間バイアスを後で測定できる。同じモデルに 100 人全員を演じさせると、Dillion 2023 の懸念(自己循環)が露骨に出る。

grok (xAI) も最初は加える予定だったが、本走の途中で「Forbidden: out of credits」が返り、断念した。3 モデル構成に切り替えた。

3.3 設問設計:C 系(キャリブレーション)の導入

ここが本稿で 最も気に入っている工夫 だ。先行研究で「LLM ペルソナの回答は信用できるか」を測る客観指標がほとんどない。そこで、C 系設問——客観正答のある設問——を 5 問混ぜた:

Q設問正答キーワード
C011 メッセージあたりいくつの行動が提案されていましたか?3 / 三 / 3つ
C02月額プランの料金は?480
C03自身を「占い」と「化解」のどちらと位置づけ?化解 / ファージエ
C04行動は何分で実行できる前提?5〜15分
C05LINE に 1 日何回届きますか?1 回

正答キーワードを survey_daily_quest.yaml に持たせ、集計時にキーワード一致で 0/1 採点する。これにより:

  • モデル別の読解精度を数字で出せる
  • 読解精度が低いモデルの subjective 回答(A/B 系)は信用度を割り引いて読める
  • 「ちゃんと文章を読んだ上での回答か」が事後検証できる

これは Dillion 2023 で論じられる「LLM ペルソナの妥当性をどう検証するか」への一つの実用的答えだと思う。

残りの設問:

  • A 系 6 問:narration への客観評価(押しつけがましさ・行動の実行可能性・東洋語彙の理解・位置づけ伝達・刺さり・敬語トーン)。占い関心度に依存しにくいよう、占いの良し悪しでなく文章の良し悪しを聞く。
  • B 系 3 問:購買意欲(毎朝 LINE 受信・月額 ¥480・単発 ¥120)。占い関心度に依存する。
  • 自由記述 2 問:印象一言と「使う/使わない理由」。

3.4 並列実行ランナー

実装は素朴な ThreadPoolExecutor。各ペルソナにつき 1 回 subprocess を起動して、対応モデルの CLI を叩く:

  • opus: claude -p ... --model claude-opus-4-7 --output-format text
  • gpt: codex exec --json --sandbox danger-full-access
  • gemini: opencode run --model github-copilot/gemini-2.5-pro

ralph-loopProviderConfig.from_preset() を活用すれば、subprocess の組み立て・JSONL パース・タイムアウト処理は全部既製品で済む。asyncio は不要、ThreadPoolExecutor(max_workers=11) で十分。

100 人の総処理時間:約 3 分(並列度 ≈ 11、平均レイテンシ opus 14s / gpt 20s / gemini 13s)。

3.5 ゲート設計

回答品質を担保するために 4 つのゲートを置いた:

  • G1 完答率: 16 問中 14 以上必須。10 問しか返らないようなレスポンスは reject
  • G3 キャリブレーション最低: C 系 5 問中 3 以上正答。文章を読まずに答えた疑いがあるものを reject
  • G5 NG パターン検出: [hermes-x] I cannot 申し訳ありませんが 等を含めば reject
  • G7 リトライ: 上記でゲート失敗時 1 回まで再試行

結果:100 / 100 件すべてゲート通過、skipped 0。LLM 群の安定性は高い。


4. 結果

4.1 トップライン

指標mean4-5 評価1-2 評価
B01 毎朝 LINE 受け取りたい2.6729%50%
B02 月額 ¥480 払いたい2.2322%70%
B03 単発 ¥120 払いたい2.8229%36%

中庸 (3) が少なく、強い二極化が出た。月額で「中庸」と答えたのは 8 人のみ。

4.2 キャリブレーション (モデル別読解精度)

モデルnC 系正答率
gpt33100.0%
gemini3395.2%
opus3480.6%

gpt は 5 問全問正答。opus の 80.6% は C05「LINE に何回?」で「3 回(仕事/恋愛/金の 3 テーマ分)」と答えた人が多かったため——だがこれは私の survey YAML の提示バグ で、サンプル narration を 3 テーマぶん並べたことが「1 日 3 通来る」と読める誤導を生んだ。opus だけ厳密に読んだとも解釈できる。読解精度の差というより表示解釈の差であった。

4.3 駆動因子(A 系 × B01 の相関)

narration 評価B01 との相関
押しつけがましくない (A01)r = 0.72
5-15 分で実行可能 (A02)r = 0.41
東洋思想語彙の理解 (A03)r = 0.90
位置づけ伝達 (A04)r = 0.59
1 つはやってみたい (A05)r = 0.88
敬語トーン受容 (A06)r = 0.49

使いたい」を予測する唯一最大の因子は「文章の語彙が読めるか」と「行動が刺さるか」。属性ではなく、目の前の文章が理解可能か。

4.4 月額 ¥480 購入意向者プロファイル (n=22)

  • 占い高関心 95%(21/22)
  • 月額課金経験者 100%(22/22)
  • 毎日 LINE ユーザー 100%
  • 自己啓発高関心 73%
  • 30-40 代 64%、女性 64%、都市 86%

5 条件 AND(占い高 + 月額経験 + 毎日 LINE + 自己啓発中以上 + 都市)で絞ると 20 人 / 100 人、その層の月額 OK 率は 75%+。狭く深いコア。

4.5 反発者の声 (B02 ≤2, n=70 の自由記述)

反発理由のキーワード該当率
専門用語が難しい / 重い67%
観葉植物等の行動が現実離れ59%
胡散臭い/ピンとこない39%
お金を払いたくない44%
朝の時間がない9%
LINE が合わない4%

「観葉植物を置く」「机の北西の角」「ハーブの種を撒く」といった具体的な行動提案が、生活様式(工場勤務・畑作業・主婦の家事育児)の物理的制約と合わない、という声が肯定派からも多く拾えた。

代表例:

「机に植物置けって言われてもまず工場勤務だし置く場所ない」(20 代男 / 占い低)

「畑の事で頭が一杯なのに、机の角に観葉植物を置けとか、北を向いて通帳を眺めろとか、ピンとこん」(50 代男 / 占い低 / 農業)

論理派からはこんな反応:

「『気の通り道』『土の力を借りて』みたいな検証不能なメタファーで、エビデンスを問う人間にはどう転んでも信じる根拠にならず、文章として読むには面白いが実践動機にはつながらない」(50 代女 / 占い低)

「決定論コードと LLM を分業させて『計算した証拠が残る』という設計思想は、エンジニアとしては素直に面白いと思った。一方で『今日は景門の火が強く立ち』みたいな前提を信じてない人間からすると、結局『良いライフハックを胡散臭い包装紙で渡されている』感が拭えない」(30 代男 / 占い低 / エンジニア)

肯定派の声:

「『化解』という考え方が新鮮で良かった。九星気学を独学してるので、奇門遁甲と納音を組み合わせた決定論コードの発想にすごく惹かれる」(30 代女 / 占い高)

「校閲の目で見ても『絶対』『100%』を避けると明言しているのは誠実」(60 代女 / 占い高)

4.6 モデル別バイアス

3 モデルそれぞれが「ペルソナの率直さ」をどう演じたか:

Qgeminigptopusrange
A06 敬語トーン受容4.823.883.791.03 ⚠️
A04 位置づけ伝達4.614.423.650.96
B02 月額¥480 払いたい2.582.301.820.76
B03 単発¥120 払いたい3.332.732.410.92

gemini は「トーンの丁寧さ」「言葉遣い」を高評価する傾向があり、opus は positioning(占いでない主張)の懐疑が強く、価格判定も厳しい。

これは Bisbee 2024 が指摘する 「LLM ごとに違うバイアスを持つ」 ことの実例。3 モデル平均値を使うのが安全で、opus 単独で読むと保守側、gemini 単独だと楽観側に振れる。


5. では、これは現実の調査と似ているか

ここからが本稿の本題である。

5.1 似ていると言える部分

(a) 属性別の方向感は妥当

「占い高関心の若い女性は買いやすく、占い低関心のシニア男性は買わない」という基本構造は、ドメイン常識と整合する。属性条件付けによる方向感の再現は、Argyle 2023 の主張と整合する。

(b) 二極化が出る

中庸 (3) ではなく 1 か 5 に張り付く回答が多い。これは「LLM ペルソナは自分の属性に対して整合した答えを出そうとする」結果で、Park 2023 が示すような persona consistency の副作用とも読める。現実の調査では中庸が多くなりがち(曖昧な質問への防衛的回答)なので、ここは似ていない。

(c) 自由記述の質感が人間っぽい

「畑の事で頭が一杯なのに...」

このような具体的な生活背景に基づく拒否反応は、人間調査でもよく見る形だ。質感は確かに似ている。Park 2023 のキャラクター持続性が効いている。

5.2 似ていないと言える部分

(a) 絶対値が現実と乖離

私のペルソナ分布は意図的に「占い高関心 30%・無課金 14%・性別その他 3%」と極端層を確保したため、現実の日本 20+ 成人 に対する重み付けに直すと数字が劇的に変わる:

指標私のペルソナ分布日本 20+ 推定分布
B01 興味あり29%8.8%
B02 月額¥480 OK22%6.6%
B03 単発¥120 OK29%10.0%
月次 ARPU (両 SKU)¥119¥36

ARPU が 3 分の 1 になる。これは Bisbee 2024 の「シニアや少数派の再現精度が落ちる」とは別の問題で、そもそも私が母集団分布を「市場規模推定用」に設計していなかっただけ。市場規模を真面目に出すなら国勢調査・NRI 占い消費調査 などの実データで post-stratification する必要がある。

これは本稿の 最大の教訓 だ:

LLM ペルソナ調査の絶対値(22% が買う)は、ペルソナ分布の設計に強く依存する。本気で「市場規模 X 億円」と言いたいなら、国勢調査ベースの分布で生成し直す必要がある。

(b) silent majority バイアスが疑われる

Bisbee 2024 の指摘通り、LLM は中央値的な答えに引きずられる。私の調査でも「反対派 70 人の自由記述」を読むと、表現は多彩だが核となる反対理由は『専門用語難しい』と『観葉植物現実離れ』の 2 つに収束してしまった。現実の反対者はもっと予想外の理由を持っているはずで、ここに silent majority バイアスが効いている可能性がある。

(c) 「賢い学生のような答え」問題

Dillion 2023 の指摘——LLM ペルソナは全員 IQ 130 級——は本調査でも実感する。「あ、そんなの興味ないから」でアンケートを 30 秒で終わらせる人間が現実には居るが、LLM ペルソナは全員 200 字以上の長い自由記述を返す。深く考えない人間の代弁ができていない

(d) コンセプト評価バイアス

ペルソナ生成と回答生成を 同じ chat history で行わない設計にしたが、それでも opus で作ったペルソナに opus が回答するセル(全 100 人中 34 人)には自己循環の懸念が残る。本来は 生成と回答で完全に違うモデルを使うのが理想。

5.3 では何が信頼できるか

信頼できる:

  1. 属性内コンバージョン率の相対比較:占い高関心層の 70% / 中関心の 2.5% という相対値は、母集団分布バイアスの影響を受けない segment-internal な数字なので比較的信頼に値する
  2. 自由記述から見える反対理由の構造:観葉植物・専門用語の壁は LLM がでっち上げる類の回答ではなく、こちらの提示物(narration)の実際の弱点を指している
  3. A 系 × B 系の相関構造:A03 が B01 を r=0.90 で予測する構造は、ペルソナ分布をどう動かしても揺るがないコンセプト設計の本質的所見
  4. モデル間の合意:3 モデルが range < 1.0 で揃った設問は、Bisbee 2024 が言う「ロバストな信号」

信頼できない:

  1. 絶対値(「22% が買う」「ARPU ¥119」)
  2. 「ターゲット人口 X 万人」のような市場規模推計
  3. silent な反対者の声(出てきた声は LLM が代弁できるところまで)
  4. 50 代男性の田舎独自の感覚など、学習データで minority な層

6. 落とし穴の build-log

完全に動くまでに踏んだ地雷を時系列で残す。

6.1 gemini CLI 死亡 (2026-06-18)

gemini CLI を呼ぶと IneligibleTierError: This client is no longer supported for Gemini Code Assist for individuals. To continue using Gemini, please migrate to the Antigravity suite のエラー。Google が個人向け Gemini Code Assist を打ち切り、後継の Antigravity CLI (agy) に移行を強制したタイミングだった。

6.2 agy の引数順バグ

ralph-loop 0.10 の gemini preset を agy に切り替えた直後、dry-run で 348 秒かかって "no JSON" エラー

調べると、ralph-loop の build_command が以下の順で組む:

agy -p --dangerously-skip-permissions <prompt>

agy -p は直後を prompt 値として消費するので、--dangerously-skip-permissions 自体が prompt になり、本来の prompt は positional として置き去り。agy は混乱した文脈の agentic タスクとして「Yes, I'm monitoring the dry-run execution of run_survey.py...」のような agent narration を返してきた。これが「JSON 返らない」の正体。

回避:extra_args でなく cli_args に置いて順序を逆転 ["--dangerously-skip-permissions", "-p"]。あるいは opencode 経由で github-copilot/gemini-2.5-pro を呼ぶ路線に切り替え(結局これを採用)。

6.3 xAI クォータ枯渇

grok も加える予定で opencode run --model xai/grok-4.3 を本走に投入したら、途中から Forbidden: You have run out of credits or need a Grok subscription が返り始めた。sub のはずだが、SuperGrok のクォータと API quota が別なのか、消費が早かったのか。ともあれ撤退して 3 モデルに。

6.4 提示バグ:「3 テーマ」を「3 通」と読まれる

survey YAML に narration サンプルを「1 日分」として 3 テーマ並べた結果、opus が C05「1 日何回?」に「3 回」と答えた。製品仕様は「1 日 1 通」だが、私の見せ方が「3 通来る」と読めた。opus が一番厳密に読んだ結果が calibration スコアを下げた。

これは LLM ペルソナ調査の重要な教訓で、survey 資料の見せ方バグが、それを最も厳密に読むモデルを「読解精度低い」と誤判定してしまう。calibration はあくまで survey 資料との整合性測定で、現実理解の測定ではない。

6.5 母集団分布の落とし穴

すでに本論で書いた通り、私のペルソナ分布は 「極端層も含む多様性確保」が目的で、現実日本の人口分布ではなかった。Re-weight すると数字が 1/3 になる。「絶対値を語るときは母集団設計が市場推定に向いているか確認」——LLM ペルソナ調査の経験者がよく言うのが分かった気がする。


7. これは何の役に立つのか

ローンチ前のサービスについて:

  • コンセプトのフレーミングが伝わるか はテストできる(A04 4.22 = 「占いではない」は 86% に伝わった)
  • narration の語彙の重さ はテストできる(A03 の二極化)
  • コア層のプロファイル は浮かび上がる(5 条件 AND)
  • 想定外の反対理由 はある程度炙り出せる(観葉植物・物理的非適合)
  • モデルごとに違う答え が出るので 3 モデル平均で安全側

役に立たない

  • 何人がいくら買う」の絶対値推計
  • 「市場規模」推計
  • 「LTV」予測

つまり 質的検証ツール としては十分使えるが、量的市場推定ツールとして無条件には使えない。


8. 全体コスト

項目コスト
ペルソナ 100 人生成(opus 1 回呼び出し)sub OAuth → $0
アンケート 100 人 × 16 問(subprocess 100 回)sub OAuth → $0
並列処理約 3 分
検算・集計(pandas)ローカル無料
総コスト$0
総所要時間着想から本走完了まで 1 日半

人間 100 人を集めて 16 問のアンケートを取ろうとしたら、クラウドソーシング経由で最低でも 5-10 万円、リクルーティングと QC 含めると 1 週間。コスト構造が 4 桁違う

「LLM ペルソナ調査は本物の調査の代替にならない」というのは正しいが、「本物の調査の前段の方向性探索ツール」としては圧倒的に強い、と本気で思う。


9. 次にやるなら

  • 生成と回答で完全に違うモデルを使う(opus 生成 → gpt/gemini/grok 回答に固定など)
  • 国勢調査ベースの母集団分布で生成し直す(市場規模推計を本気でやるなら)
  • 同じペルソナ × 違う製品提示パターンで A/B テストする(narration バージョン比較)
  • 「30 秒で答える人間」を演じる軽量ペルソナを混ぜる(silent majority 補正)
  • キャリブレーションを増やす(5 問 → 10 問でモデル比較の解像度を上げる)
  • 本物のアンケートと並走して、ズレを実測する(ここが research opportunity)

最後のは特に面白い。実調査と LLM 調査を同じ製品で並走させて系統的にズレを測る のは、まだ良い日本語論文がない領域だと思う。少なくとも自社の製品ではやってみる価値がある。


参考文献

  1. Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of One, Many: Using Language Models to Simulate Human Samples. Political Analysis, 31(3), 337–351. doi.org/10.1017/pan.2023.2
  2. Aher, G., Arriaga, R. I., & Kalai, A. T. (2023). Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies. Proceedings of the 40th International Conference on Machine Learning (ICML '23), pp. 337–371. arxiv.org/abs/2208.10264
  3. Horton, J. J., Filippas, A., & Manning, B. S. (2023). Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? NBER Working Paper No. 31122. nber.org/papers/w31122
  4. Park, J. S., O'Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (UIST '23). doi.org/10.1145/3586183.3606763
  5. Dillion, D., Tandon, N., Gu, Y., & Gray, K. (2023). Can AI language models replace human participants? Trends in Cognitive Sciences, 27(7), 597–600. cell.com
  6. Bisbee, J., Clinton, J. D., Dorff, C., Kenkel, B., & Larson, J. M. (2024). Synthetic Replacements for Human Survey Data? The Perils of Large Language Models. Political Analysis. Cambridge Core

(全文献は 2026-06-20 に web 検証済み)


本稿で使ったコードと生データ(personas.json / responses.json / report.md / insights.md)は手元のリポジトリ persona-survey に全部残っている。気が向けば OSS 化する。LLM ペルソナ × 製品検証に興味がある方は、気軽に連絡してください。