ベクトル方策最適化(VPO): 多様性を訓練することで推論時探索を強化する
Vector Policy Optimization: Training for Diversity Improves Test-Time Search
著者: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
3行サマリー
- LLMの強化学習で報酬をスカラーではなくベクトルとして扱い、多様な解を生成するよう明示的に訓練する新手法VPOを提案
- GRPOのアドバンテージ推定をそのまま置き換える形で実装でき、コード生成のテストケース別正答や複数報酬モデルなど実務でよくある報酬構造を活用
- pass@kやbest@kなど推論時探索の指標でスカラーRLベースラインを上回り、探索予算が増えるほど差が拡大
- 進化的探索(AlphaEvolveなど)ではGRPO訓練モデルでは全く解けない問題をVPOモデルが解けるようになる
- 推論時探索が標準化される時代において、多様性最適化が事後訓練のデフォルト目標になる可能性を示唆
難易度: 上級(研究者・専門家向け)
背景と課題
近年のLLM活用では、単に1つの良い回答を出すだけでなく、推論時に複数の候補を生成して最良のものを選ぶ「推論時探索(inference-time search)」が重要になっています。例えば AlphaEvolve のような進化的探索や、pass@k(k個生成して少なくとも1つ正解する確率)などの評価設定では、モデルが多様な解を生成できることが鍵になります。
しかし従来のLLM事後訓練(GRPOなどの強化学習)は、事前に決めた1つのスカラー報酬を最大化するため、出力分布のエントロピーが低くなり、似たような解ばかりを返すようになりがちです。これは推論時探索が必要とする「多様性」と相反します。
提案手法
本論文が提案する Vector Policy Optimization (VPO) は、報酬を「ベクトル値」として扱う強化学習アルゴリズムです。実務では報酬は本質的にベクトルであることが多い、という観察に基づいています。例えば:
- コード生成: テストケースごとの合否(複数の0/1)
- 対話生成: 異なるユーザペルソナや複数の報酬モデルからのスコア
VPOはGRPOのアドバンテージ推定器をそのまま置き換える形で実装でき、ベクトル報酬空間において異なるトレードオフに特化した解の集合を出力するようLLMを訓練します。つまり、生成される個々の解が報酬ベクトルの異なる「次元」や「方向」に特化するように学習が進みます。
GRPOとの違い
GRPOがグループ内の平均報酬を基準にアドバンテージを計算するのに対し、VPOはベクトル報酬の構造を活用して、グループ内の解が互いに異なる報酬プロファイルに特化することを促します。実装上の変更は小さく、ドロップイン置換が可能です。
結果と意義
4つのタスクで評価した結果:
- 推論時探索の指標(pass@k, best@k): VPOは最強のスカラーRLベースラインと同等以上の性能を示す
- 探索予算とのスケーリング: 生成数kが増えるほど、VPOとベースラインの差が拡大
- 進化的探索: GRPO訓練モデルでは全く解けない問題が、VPO訓練モデルでは解けるようになる
この結果は、推論時探索が標準化されつつある現在、多様性を明示的に最適化することが事後訓練のデフォルト目標になるべきだという示唆を与えます。
実務での使いどころ
- コード生成プロダクト: 複数テストケースに対して多様な解を生成し、最良を選ぶ pass@k 型ワークフロー
- マルチペルソナ・マルチ評価軸の生成: 異なるユーザ層や品質基準に対応した複数案の提示
- アルゴリズム発見・最適化: AlphaEvolveのような進化的探索のベースモデル訓練
- 既存GRPOパイプラインの拡張: アドバンテージ推定部の置き換えだけで導入可能
注意点・限界
- VPOは報酬がベクトル値で得られる、または分解できるタスクが前提です。単一スカラー報酬しか定義できない場合には適用が難しい可能性があります
- 評価は4つのタスクに限定されており、より広いドメインでの汎化性能は今後の検証が必要です
- 多様性を促進することと、個々の解の質を維持することのトレードオフがどの程度安定して制御できるかは、タスクや報酬ベクトルの設計に依存すると考えられます
- 論文の詳細(具体的なアドバンテージ式やハイパーパラメータ)は本要約では割愛しているため、実装時は原論文を参照してください
実務での使いどころ(要約)
コード生成サービスで複数のテストケースに対して多様な解候補を生成し、ベストなものを選ぶワークフロー(pass@k方式)に直接適用できます。また、複数のユーザペルソナや評価軸(品質・安全性・スタイルなど)を持つコンテンツ生成、AlphaEvolveのような進化的探索を用いたアルゴリズム発見・最適化パイプラインで威力を発揮します。GRPOで既にRLfine-tuningしているチームは、アドバンテージ推定部分の置き換えだけで導入できる点も実務的な利点です。
出典・原論文
- arXiv ID:
- 2605.22817
- 著者:
- Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
- 論文公開日:
- 2026-05-21
注意: 本ページの要約はAIによって生成されたものであり、内容の正確性を保証するものではありません。研究や意思決定に用いる場合は必ず原論文をご参照ください。