本文へスキップ
AI論文ダイジェスト
カテゴリ: cs.RO

HANDOFF: 補完的な教師から蒸留した、ヒューマノイドのタスク空間全身制御

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

著者: Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames

#ヒューマノイド #全身制御 #知識蒸留 #MoE #VLM #ロボティクス

3行サマリー

  • タスク計画と全身制御の橋渡しとして、直感的かつ汎用的でモジュラーなコマンド空間を新たに提案
  • 全身動作追従・歩行・転倒復帰の3つの専門教師を、文脈に応じたゲーティング付きMoE生徒モデルへKL蒸留して統合
  • Unitree G1実機で最先端の速度追従性能と広い操作ワークスペースを実現し、VLM計画器による自然言語タスクも追加学習なしで実行可能

難易度: 上級(研究者・専門家向け)

背景と課題

ヒューマノイドロボットを実世界で運用するには、上位のタスク計画器と下位の全身制御器をつなぐ「コマンド空間(インターフェース)」の設計が決定的に重要です。しかし既存の全身制御器の多くは、関節角の時系列や手先・足先の密な空間参照といった、きめ細かな運動学的指示を入力として要求します。このような密な参照は、タスクの意味(例えば「あの箱を取って」)からタスクプランナーが直接合成するのは難しく、計画と制御の間に大きなギャップが生じていました。

また、歩行・操作・転倒復帰など機能ごとに別の制御器を切り替える方式は、運用が複雑で破綻しやすいという課題があります。

提案手法

本論文は HANDOFF と呼ばれる単一のヒューマノイド全身制御器を提案します。鍵となるアイデアは次の2点です。

コンパクトで明示的なコマンド空間

直感的・汎用的・モジュラーで、多様なマニピュレーションスキルを表現できる、コンパクトな明示的インターフェースを定義します。これにより、タスクプランナーが扱いやすい抽象度でロボットに指示を与えられます。

補完的な3教師からのMoE蒸留

生徒モデルは Mixture-of-Experts (MoE、複数の専門家ネットワークを文脈に応じて切り替える構造) で、文脈条件付きのゲーティングにより、状況に応じた専門家の重み付けを行います。教師は次の3つの補完的なスペシャリストです。

  • 安全フィルタを通したデータで学習された「全身動作追従」
  • 「歩行(ロコモーション)」
  • 「転倒復帰」

これらをマルチティーチャーのKL蒸留(教師の出力分布に生徒分布を近づける学習)により、単一の生徒方策へ統合します。

結果と意義

Unitree G1 実機での評価において、HANDOFF は最先端手法に匹敵する速度追従性能を達成しつつ、頑健に操作可能なワークスペースの広さでもトップクラスの結果を示しました。さらに、VLM(視覚言語モデル)駆動のエージェント型プランナーと組み合わせ、自然言語で指示される複数のタスクを、タスク固有の学習データや制御器の追加ファインチューニングなしで実機実行できることを示しています。

これは、計画と制御のインターフェース設計と、補完的教師の蒸留により、汎用的かつ実用的なヒューマノイド制御が現実的に構築可能であることを示した点で意義があります。

実務での使いどころ

  • 自然言語で指示される実機ヒューマノイドのデモやプロトタイピング
  • 操作・歩行・転倒復帰を切り替えなしに扱いたい研究プラットフォーム
  • VLMなど高レベルな計画器と組み合わせる際の、共通の低レベルインターフェースとしての利用

タスクごとに制御器を作り直す必要がないため、上位アプリケーションの試行錯誤コストを下げられる可能性があります。

注意点・限界

  • 評価は Unitree G1 を中心としており、他機体への一般化は本論文の範囲では限定的です。
  • 「ロバストな操作ワークスペース」「最先端の速度追従」といった主張は、論文内の比較条件に依存します。実環境タスクの成功率は、VLMプランナーの性能や対象物・環境にも左右されます。
  • 教師方策の品質(特に安全フィルタの設計)が生徒モデルの挙動に大きく影響するため、教師設計のノウハウが必要です。

実務での使いどころ(要約)

工場や倉庫、家庭環境などで人間型ロボットに自然言語で多様な作業を指示するシステムに応用できます。VLM計画器が高レベルなタスク指示を発行し、HANDOFFがそれを安全に全身動作へ変換するため、タスクごとに制御器を再学習する必要がありません。デモやプロトタイピングにおいて、歩行・操作・転倒復帰までを単一の制御器で扱える点が大きな利点となります。

出典・原論文

arXiv ID:
2606.06493
著者:
Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames
論文公開日:
2026-06-04

注意: 本ページの要約はAIによって生成されたものであり、内容の正確性を保証するものではありません。研究や意思決定に用いる場合は必ず原論文をご参照ください。