LLMはサイコロ問題をどこまで正しく解けるか？確率推論能力のベンチマーク

背景と課題

大規模言語モデル（LLM）は数学オリンピックレベルの問題まで解けるようになりつつあるが、「確率的な推論」を真に行えているのかは明らかでない。確率の問題は、人間でも直感（ヒューリスティック）に頼ると間違えやすい領域として知られており、モンティ・ホール問題のように正解が直感に反するケースが多い。LLMが確率問題で高い正答率を出していても、それがパターンマッチによる暗記なのか、本質的な推論なのかを区別する必要がある。

提案手法

著者らは、離散確率の問題を扱う2種類のデータセットを構築した。

標準問題セット: 教科書的な典型問題
直感に反する問題セット: ヒューリスティックな誤答を誘発するよう設計された問題

これらを最先端の8つのLLMに対して、Chain-of-Thought（思考の連鎖：途中の推論ステップを書き出させるプロンプト手法）の有無の両条件で評価した。さらに以下の頑健性テストも実施している。

トークンバイアス検証: 問題の標準的な定式化を、意味は同じだが表現を変えた「偽装版」に差し替えて性能変化を測定
誤誘導耐性検証: プロンプト内に誤った示唆を埋め込み、モデルが惑わされるかを測定

結果と意義

標準問題での平均正解率は 0.96 と高水準
直感に反する問題では 0.59 まで低下
問題文を偽装表現に置き換えると性能は 20%以上 低下（トークンバイアスの実証）
誤誘導を含むプロンプトでは最大 34% の性能低下が観測され、影響を免れたモデルはゼロ

これらは、LLMが確率問題を解く際、問題構造の本質的理解よりも表面的なトークンパターンや教科書的表現に依存していることを示唆する。高度な数学問題で成功していても、確率推論については「真の推論者」とは言えない、というのが本研究の結論である。

実務での使いどころ

金融、保険、医療など確率計算が判断に直結する領域でLLMを活用する場合、本研究は重要な警告を与える。特にユーザーからの質問が教科書的な定型表現から外れる現場では、LLMの回答精度が大幅に落ちる可能性がある。プロンプト設計時には誤誘導的な前提を含めないよう注意し、また確率計算をLLM単体に任せず、外部ソルバーや人間のレビューと組み合わせる設計が望ましい。LLM評価ベンチマークを開発する側にとっても、確率領域の盲点を可視化する貴重なデータとなる。

注意点・限界

対象は離散確率の問題に限定されており、連続確率分布やベイズ推論など他の確率領域への一般化は本研究の範囲外
評価対象は論文時点の8モデルであり、今後のモデル更新で結果が変わる可能性がある
「直感に反する問題」の難易度設計には著者らの選定基準が反映されており、別の問題セットでは異なる傾向が出る可能性がある
Chain-of-Thoughtの有無による詳細な内訳など、論文本文を参照すべき情報も多い

実務での使いどころ（要約）

金融リスク評価、保険数理、医療診断の確率計算など、確率的判断を扱う業務にLLMを組み込む際の信頼性検証に有用です。特に、ユーザーの質問が標準的な教科書表現から外れる実務シーンでは性能が大きく低下するため、結果の人手チェックや検算ステップを設ける必要性を示します。また、LLM評価ベンチマークを設計する研究者やAIガバナンス担当者にとって、確率領域での弱点を可視化する手法として参考になります。