SkillOpt: 自己進化するエージェントスキルのための実行戦略
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
著者: Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo
3行サマリー
- エージェントの『スキル文書』をディープラーニングのオプティマイザのように体系的に最適化する初の手法を提案
- スコア付きロールアウトから追加・削除・置換の編集を生成し、検証スコアが改善した時のみ採用する厳格な仕組み
- 6ベンチマーク・7モデル・3実行環境の全52条件で既存手法に勝るか同等、GPT-5.5で最大+24.8ポイント精度向上
- 最適化済みスキルはモデル規模・実行環境・近接ベンチマーク間で再利用可能で実務展開しやすい
難易度: 中級(基本的な機械学習の知識が前提)
背景と課題
LLMエージェントに与える『スキル』(タスク遂行のための手順書・知識文書)は、現状では人手で書くか、LLMに一発生成させるか、ゆるい自己修正ループで進化させるのが主流です。しかしいずれの方法も、フィードバックを受けて初期状態から確実に改善していくという、ディープラーニングのオプティマイザが満たすべき基本性質を備えていません。重み最適化の世界では再現性ある学習が確立しているのに対し、テキスト空間でのスキル最適化はまだ場当たり的だ、というのが本論文の問題意識です。
提案手法
本論文が提案する SkillOpt は、エージェントスキルに対する初の体系的かつ制御可能なテキスト空間オプティマイザです。中核となる考え方は以下の通りです。
- スキルを『凍結されたエージェントの外部状態』とみなし、重み学習と同じ規律で訓練する
- 別個の『オプティマイザモデル』が、スコア付きロールアウト(実行ログと評価結果)を入力として、単一のスキル文書に対する追加・削除・置換という限定された編集を生成する
- 編集はホールドアウト検証スコアが厳密に改善した場合のみ採用する(受理基準が明確)
安定した訓練のために、以下の仕組みが導入されています。
- テキスト的な『学習率』予算:一度に加えられる編集量の上限
- 却下編集バッファ:採用されなかった編集を記録し再利用判断に活かす
- エポック単位のスロー/メタ更新:高頻度更新と低頻度更新を組み合わせる
これらにより、デプロイ時に推論コール数を増やさずに性能を改善できる点が特徴です。
結果と意義
評価は 6 ベンチマーク、7 ターゲットモデル、3 実行環境(直接チャット、Codex、Claude Code)の組み合わせで行われ、計 52 セルすべてで SkillOpt が最良か同等という結果でした。比較対象は人手スキル、ワンショットLLM、Trace2Skill、TextGrad、GEPA、EvoSkill です。
代表例として GPT-5.5 では、スキルなしの平均精度に対し、直接チャットで +23.5 ポイント、Codex で +24.8 ポイント、Claude Code で +19.1 ポイントの改善が報告されています。
さらに転移実験では、最適化済みスキルが以下の状況でも価値を保つことが示されました。
- モデル規模が変わった場合
- Codex と Claude Code という異なる実行環境間での移動
- 追加最適化なしで近接する数学ベンチマークへ適用した場合
これは、訓練したスキル成果物を資産として再利用できる可能性を示唆します。
実務での使いどころ
LLM本体を再学習せずにエージェントの精度を底上げしたい場面で有効です。検証スコアによる厳密な受理基準があるため、改善が後退しないという運用上の安心感があります。コーディング支援、問題解決系エージェント、社内特化ワークフローなど、評価指標が定義できるタスクで特に効果が見込めます。デプロイ時に追加の推論コールがかからないため、運用コストにも優しい設計です。
注意点・限界
- 編集の受理に『検証スコアの厳密な改善』を要するため、定量評価可能なベンチマーク/評価関数が前提となります。評価が曖昧な業務では適用が難しい可能性があります。
- 訓練フェーズでは別のオプティマイザモデルによる編集生成が必要で、訓練コスト自体は発生します(推論コストではなく開発コスト側)
- 報告された転移実験は『近接する数学ベンチマーク』など限定された範囲であり、大きく異なるドメインへの転移性は今後の検証課題です
- 本要約は公開された Abstract に基づいており、ハイパーパラメータの具体値や失敗事例については原論文を参照する必要があります
実務での使いどころ(要約)
既存のLLMエージェント製品で、モデル本体を再学習せずに性能を底上げしたい場合に有効。たとえば社内のコーディング支援エージェントや問題解決エージェントに、業務ドメイン用のスキル文書を訓練して付与することで精度を改善できる。スキルが環境やモデル間で転用可能なため、CodexからClaude Codeへの移行や、モデルアップグレード時の資産流用にも適する。プロンプト改善を場当たり的にやっている現場の、体系的な代替手段になる。
出典・原論文
- arXiv ID:
- 2605.23904
- 著者:
- Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo
- 論文公開日:
- 2026-05-22
注意: 本ページの要約はAIによって生成されたものであり、内容の正確性を保証するものではありません。研究や意思決定に用いる場合は必ず原論文をご参照ください。