LLMがLLMを改良する: テスト時スケーリング戦略をエージェントが自動発見するAutoTTS

背景と課題

テスト時スケーリング(Test-Time Scaling, TTS)は、推論時にビーム探索や自己一貫性、分岐探索などの追加計算を投入することで、大規模言語モデル(LLM)の性能を引き上げる有力な手法群です。しかしこれまでのTTS戦略は、研究者が直感に基づき推論パターンを手作業で設計し、ヒューリスティクス（分岐数、探索深さ、停止条件など）をチューニングする形で構築されてきました。その結果、「いつ分岐すべきか」「どこで打ち切るべきか」といった計算配分の広大な空間のほとんどは未探索のままです。

提案手法

本論文はAutoTTSという環境駆動型のフレームワークを提案します。発想の転換が要点で、研究者が設計するのは個別の探索ヒューリスティクスではなく、TTS戦略をエージェントが自動発見するための「環境」そのものです。

環境構築の工夫

環境設計の鍵は二つあります。第一に、制御空間が扱いやすいこと。第二に、TTS探索のために安価で頻繁なフィードバックを返せることです。

具体例として、著者らは幅（branching）と深さ（continuation）のTTSを、事前に収集した推論軌跡とプローブ信号の上で動くコントローラ合成問題として定式化しました。コントローラは、いつ分岐・継続・プローブ・枝刈り・停止を行うかを決定します。事前収集データ上で動かすため、評価のたびにLLMを再呼び出しする必要がなく、安価に多数の戦略候補を比較できます。

探索の効率化

さらに次の二つの工夫が導入されています。

ベータパラメータ化: 探索空間を扱いやすい形に縮約し、エージェントが有意義な戦略をサンプリングしやすくします。
細粒度な実行トレースフィードバック: TTSプログラムが失敗した際、その原因をエージェントが診断できるよう、実行過程を詳細に返します。これにより発見効率が向上します。

結果と意義

数学推論ベンチマークでの実験では、AutoTTSによって発見された戦略が、強力な手作りベースラインと比較して精度とコストのトレードオフを総合的に改善しました。さらに、発見された戦略は学習時に使われていない別のベンチマークや、異なるモデル規模にも汎化することが示されています。

注目すべきは発見プロセス自体のコストで、全体で約39.9ドル・160分という低コストで完結しています。これは、TTS研究において「人手による設計」から「自動発見」へのシフトが実用的な選択肢になり得ることを示唆しています。

実務での使いどころ

推論コストが利益や応答性能に直結するLLM応用、たとえば数学解答・コード支援・エージェント型アシスタントなどで有効です。特に、ビーム幅・分岐ポリシー・停止基準といったハイパーパラメータを人手で調整している現場では、AutoTTSのような自動発見の枠組みを使うことで、短時間・低コストでより良い精度コスト比を得られる可能性があります。新規モデルや新ドメインへ移行した際の戦略再構築コストも削減できます。

注意点・限界

実験対象は数学推論ベンチマークが中心であり、コード生成や対話、長文生成など他タスクへの一般化は本論文の範囲では限定的に検証されています。
環境は事前収集した推論軌跡とプローブ信号に依存するため、これらの収集品質や多様性が発見される戦略の上限を決めます。
発見コストが安価とされるのは、評価をLLM再呼び出しなしのオフライン環境で行えるという定式化の前提に依存します。新しいタスクで同様の環境を構築できるかは、設計者側の工夫が必要となります。
詳細な実装やパラメータ設定はGitHubの公開コードを参照する必要があります。

実務での使いどころ（要約）

推論コストが重要なLLM搭載プロダクト（数学・コード補助、エージェント型アシスタント等）で、精度とコストのバランスを自動で最適化するのに役立ちます。手作業でビーム幅や分岐ポリシーをチューニングする工数を削減でき、新しいモデルやドメインへ移行する際にも短時間で戦略を再発見できます。研究開発チームがTTS手法をベンチマークごとに検証する基盤としても利用可能です。