類似事例からの推論を学ぶ：検索拡張型強化ファインチューニング（RA-RFT）

背景と課題

検索拡張生成（RAG）は、外部知識を言語モデルに参照させて回答を生成する標準的な手法として広く普及している。しかし従来のRAGは、語彙的または意味的な類似度に基づいて文脈を検索する設計になっており、これは複雑な推論タスクには不向きである。

論文が指摘する問題は次の二点に集約される。

意味的に似ている問題でも、解法戦略が全く異なる場合がある
表面的には異なる問題でも、根底にある推論パターンが共通している場合がある

たとえば数学オリンピックレベルの問題では、題材（幾何・整数論・組合せ）が同じでも解法アプローチは多様であり、逆に題材が違っても同じ証明テクニックを使うことがある。意味的類似度ベースの検索器ではこの『推論パターンの類似』を捉えられないため、せっかく検索しても解答精度の向上に寄与しにくい。

提案手法

著者らは RA-RFT (Retrieval-Augmented Reinforcement Fine-Tuning) というポストトレーニング枠組みを提案する。これは二段構成になっている。

1. ゴールド関連度蒸留による検索器の訓練

意味的重なりではなく『推論に役立つかどうか』で文脈をランク付けする検索器を学習する。具体的には、各候補文脈が実際に推論性能を改善するかという『ゴールド関連度』をシグナルとして用い、それを検索器に蒸留する。これにより、検索器は『この問題を解く手がかりになる類似事例』を返すようになる。

2. 検索されたデモを用いた強化ファインチューニング

次に、上記の検索器で取り出された類推デモ（解答軌跡）を文脈に与えながら、検証可能な結果報酬（正解か否か）の下でポリシーモデルを強化学習でファインチューニングする。これによりモデルは、与えられた類推事例の推論軌跡をどう活用すれば正解にたどり着けるかを学習する。

さらに著者らは検索結果の多様性も分析し、推論を意識した検索が個々の問題に対して相補的な解法戦略（複数の異なる推論の足場）を提示することを確認している。

結果と意義

難易度の高い数学推論ベンチマークにおいて、RA-RFTは標準的な強化ファインチューニング手法を一貫して上回る性能を示した。

代表的な結果として、AIME 2025 の average@32 精度において、

Qwen3-1.7B では GRPO を 7.1 ポイント上回る
Qwen3-4B では GRPO を 2.8 ポイント上回る

という改善を達成している。

この結果が示唆するのは、『推論を意識した検索』が、報酬設計やカリキュラム設計といった既存の改善軸とは独立した（直交した）新しい改善軸になり得るということである。つまり、既存のRLファインチューニング手法と組み合わせて重ねがけできる可能性がある。

実務での使いどころ

高度な推論タスクのLLMチューニング: 数学・論理・コードなど検証可能な正解を持つタスクで、既存のGRPOなどに追加で導入できる
過去事例の類推活用: 社内に蓄積された問題解決ログを『推論パターン』ベースで検索可能にし、新しい案件に類推で活かす
既存パイプラインへの追加: 報酬関数や学習データを変えずに精度を底上げする手段として検討できる

注意点・限界

評価は主に数学推論ベンチマーク（AIME 2025など）に限定されており、他ドメイン（自然言語推論、コード生成、対話など）への一般化は本論文の範囲では検証されていない
『ゴールド関連度』のシグナルを得るには、各候補が実際に推論性能を改善するかを評価する必要があり、検索器訓練のコストが追加で発生する
検証可能な結果報酬（正解判定が自動で行える）を前提とするため、自由記述や主観評価が必要なタスクへの直接適用は難しい
実験対象はQwen3-1.7B/4Bといった中規模モデルで、より大規模なモデルでの効果は本論文の報告範囲を超える

実務での使いどころ（要約）

数学オリンピック級の問題を解くLLMや、コード生成・論理推論を要する高度な業務支援エージェントの精度向上に活用できる。社内に蓄積された過去の問題解決事例（コードレビュー、障害対応、設計判断など）を『推論パターン』として検索可能にし、新規問題への類推適用を強化したい場面で有用。また、既存のGRPOなどRL系ファインチューニングパイプラインに追加導入できる直交的な改善策として、報酬関数や学習データを変えずに性能を底上げしたい開発チームに適する。