ベクトル方策最適化(VPO): 多様性を訓練することで推論時探索を強化する

背景と課題

近年のLLM活用では、単に1つの良い回答を出すだけでなく、推論時に複数の候補を生成して最良のものを選ぶ「推論時探索(inference-time search)」が重要になっています。例えば AlphaEvolve のような進化的探索や、pass@k(k個生成して少なくとも1つ正解する確率)などの評価設定では、モデルが多様な解を生成できることが鍵になります。

しかし従来のLLM事後訓練(GRPOなどの強化学習)は、事前に決めた1つのスカラー報酬を最大化するため、出力分布のエントロピーが低くなり、似たような解ばかりを返すようになりがちです。これは推論時探索が必要とする「多様性」と相反します。

提案手法

本論文が提案する Vector Policy Optimization (VPO) は、報酬を「ベクトル値」として扱う強化学習アルゴリズムです。実務では報酬は本質的にベクトルであることが多い、という観察に基づいています。例えば:

コード生成: テストケースごとの合否(複数の0/1)
対話生成: 異なるユーザペルソナや複数の報酬モデルからのスコア

VPOはGRPOのアドバンテージ推定器をそのまま置き換える形で実装でき、ベクトル報酬空間において異なるトレードオフに特化した解の集合を出力するようLLMを訓練します。つまり、生成される個々の解が報酬ベクトルの異なる「次元」や「方向」に特化するように学習が進みます。

GRPOとの違い

GRPOがグループ内の平均報酬を基準にアドバンテージを計算するのに対し、VPOはベクトル報酬の構造を活用して、グループ内の解が互いに異なる報酬プロファイルに特化することを促します。実装上の変更は小さく、ドロップイン置換が可能です。

結果と意義

4つのタスクで評価した結果:

推論時探索の指標(pass@k, best@k): VPOは最強のスカラーRLベースラインと同等以上の性能を示す
探索予算とのスケーリング: 生成数kが増えるほど、VPOとベースラインの差が拡大
進化的探索: GRPO訓練モデルでは全く解けない問題が、VPO訓練モデルでは解けるようになる

この結果は、推論時探索が標準化されつつある現在、多様性を明示的に最適化することが事後訓練のデフォルト目標になるべきだという示唆を与えます。

実務での使いどころ

コード生成プロダクト: 複数テストケースに対して多様な解を生成し、最良を選ぶ pass@k 型ワークフロー
マルチペルソナ・マルチ評価軸の生成: 異なるユーザ層や品質基準に対応した複数案の提示
アルゴリズム発見・最適化: AlphaEvolveのような進化的探索のベースモデル訓練
既存GRPOパイプラインの拡張: アドバンテージ推定部の置き換えだけで導入可能

注意点・限界

VPOは報酬がベクトル値で得られる、または分解できるタスクが前提です。単一スカラー報酬しか定義できない場合には適用が難しい可能性があります
評価は4つのタスクに限定されており、より広いドメインでの汎化性能は今後の検証が必要です
多様性を促進することと、個々の解の質を維持することのトレードオフがどの程度安定して制御できるかは、タスクや報酬ベクトルの設計に依存すると考えられます
論文の詳細(具体的なアドバンテージ式やハイパーパラメータ)は本要約では割愛しているため、実装時は原論文を参照してください

実務での使いどころ（要約）

コード生成サービスで複数のテストケースに対して多様な解候補を生成し、ベストなものを選ぶワークフロー(pass@k方式)に直接適用できます。また、複数のユーザペルソナや評価軸(品質・安全性・スタイルなど)を持つコンテンツ生成、AlphaEvolveのような進化的探索を用いたアルゴリズム発見・最適化パイプラインで威力を発揮します。GRPOで既にRLfine-tuningしているチームは、アドバンテージ推定部分の置き換えだけで導入できる点も実務的な利点です。