SkillOpt: 自己進化するエージェントスキルのための実行戦略

背景と課題

LLMエージェントに与える『スキル』（タスク遂行のための手順書・知識文書）は、現状では人手で書くか、LLMに一発生成させるか、ゆるい自己修正ループで進化させるのが主流です。しかしいずれの方法も、フィードバックを受けて初期状態から確実に改善していくという、ディープラーニングのオプティマイザが満たすべき基本性質を備えていません。重み最適化の世界では再現性ある学習が確立しているのに対し、テキスト空間でのスキル最適化はまだ場当たり的だ、というのが本論文の問題意識です。

提案手法

本論文が提案する SkillOpt は、エージェントスキルに対する初の体系的かつ制御可能なテキスト空間オプティマイザです。中核となる考え方は以下の通りです。

スキルを『凍結されたエージェントの外部状態』とみなし、重み学習と同じ規律で訓練する
別個の『オプティマイザモデル』が、スコア付きロールアウト（実行ログと評価結果）を入力として、単一のスキル文書に対する追加・削除・置換という限定された編集を生成する
編集はホールドアウト検証スコアが厳密に改善した場合のみ採用する（受理基準が明確）

安定した訓練のために、以下の仕組みが導入されています。

テキスト的な『学習率』予算：一度に加えられる編集量の上限
却下編集バッファ：採用されなかった編集を記録し再利用判断に活かす
エポック単位のスロー／メタ更新：高頻度更新と低頻度更新を組み合わせる

これらにより、デプロイ時に推論コール数を増やさずに性能を改善できる点が特徴です。

結果と意義

評価は 6 ベンチマーク、7 ターゲットモデル、3 実行環境（直接チャット、Codex、Claude Code）の組み合わせで行われ、計 52 セルすべてで SkillOpt が最良か同等という結果でした。比較対象は人手スキル、ワンショットLLM、Trace2Skill、TextGrad、GEPA、EvoSkill です。

代表例として GPT-5.5 では、スキルなしの平均精度に対し、直接チャットで +23.5 ポイント、Codex で +24.8 ポイント、Claude Code で +19.1 ポイントの改善が報告されています。

さらに転移実験では、最適化済みスキルが以下の状況でも価値を保つことが示されました。

モデル規模が変わった場合
Codex と Claude Code という異なる実行環境間での移動
追加最適化なしで近接する数学ベンチマークへ適用した場合

これは、訓練したスキル成果物を資産として再利用できる可能性を示唆します。

実務での使いどころ

LLM本体を再学習せずにエージェントの精度を底上げしたい場面で有効です。検証スコアによる厳密な受理基準があるため、改善が後退しないという運用上の安心感があります。コーディング支援、問題解決系エージェント、社内特化ワークフローなど、評価指標が定義できるタスクで特に効果が見込めます。デプロイ時に追加の推論コールがかからないため、運用コストにも優しい設計です。

注意点・限界

編集の受理に『検証スコアの厳密な改善』を要するため、定量評価可能なベンチマーク／評価関数が前提となります。評価が曖昧な業務では適用が難しい可能性があります。
訓練フェーズでは別のオプティマイザモデルによる編集生成が必要で、訓練コスト自体は発生します（推論コストではなく開発コスト側）
報告された転移実験は『近接する数学ベンチマーク』など限定された範囲であり、大きく異なるドメインへの転移性は今後の検証課題です
本要約は公開された Abstract に基づいており、ハイパーパラメータの具体値や失敗事例については原論文を参照する必要があります

実務での使いどころ（要約）

既存のLLMエージェント製品で、モデル本体を再学習せずに性能を底上げしたい場合に有効。たとえば社内のコーディング支援エージェントや問題解決エージェントに、業務ドメイン用のスキル文書を訓練して付与することで精度を改善できる。スキルが環境やモデル間で転用可能なため、CodexからClaude Codeへの移行や、モデルアップグレード時の資産流用にも適する。プロンプト改善を場当たり的にやっている現場の、体系的な代替手段になる。