HANDOFF: 補完的な教師から蒸留した、ヒューマノイドのタスク空間全身制御

背景と課題

ヒューマノイドロボットを実世界で運用するには、上位のタスク計画器と下位の全身制御器をつなぐ「コマンド空間（インターフェース）」の設計が決定的に重要です。しかし既存の全身制御器の多くは、関節角の時系列や手先・足先の密な空間参照といった、きめ細かな運動学的指示を入力として要求します。このような密な参照は、タスクの意味（例えば「あの箱を取って」）からタスクプランナーが直接合成するのは難しく、計画と制御の間に大きなギャップが生じていました。

また、歩行・操作・転倒復帰など機能ごとに別の制御器を切り替える方式は、運用が複雑で破綻しやすいという課題があります。

提案手法

本論文は HANDOFF と呼ばれる単一のヒューマノイド全身制御器を提案します。鍵となるアイデアは次の2点です。

コンパクトで明示的なコマンド空間

直感的・汎用的・モジュラーで、多様なマニピュレーションスキルを表現できる、コンパクトな明示的インターフェースを定義します。これにより、タスクプランナーが扱いやすい抽象度でロボットに指示を与えられます。

補完的な3教師からのMoE蒸留

生徒モデルは Mixture-of-Experts (MoE、複数の専門家ネットワークを文脈に応じて切り替える構造) で、文脈条件付きのゲーティングにより、状況に応じた専門家の重み付けを行います。教師は次の3つの補完的なスペシャリストです。

安全フィルタを通したデータで学習された「全身動作追従」
「歩行（ロコモーション）」
「転倒復帰」

これらをマルチティーチャーのKL蒸留（教師の出力分布に生徒分布を近づける学習）により、単一の生徒方策へ統合します。

結果と意義

Unitree G1 実機での評価において、HANDOFF は最先端手法に匹敵する速度追従性能を達成しつつ、頑健に操作可能なワークスペースの広さでもトップクラスの結果を示しました。さらに、VLM（視覚言語モデル）駆動のエージェント型プランナーと組み合わせ、自然言語で指示される複数のタスクを、タスク固有の学習データや制御器の追加ファインチューニングなしで実機実行できることを示しています。

これは、計画と制御のインターフェース設計と、補完的教師の蒸留により、汎用的かつ実用的なヒューマノイド制御が現実的に構築可能であることを示した点で意義があります。

実務での使いどころ

自然言語で指示される実機ヒューマノイドのデモやプロトタイピング
操作・歩行・転倒復帰を切り替えなしに扱いたい研究プラットフォーム
VLMなど高レベルな計画器と組み合わせる際の、共通の低レベルインターフェースとしての利用

タスクごとに制御器を作り直す必要がないため、上位アプリケーションの試行錯誤コストを下げられる可能性があります。

注意点・限界

評価は Unitree G1 を中心としており、他機体への一般化は本論文の範囲では限定的です。
「ロバストな操作ワークスペース」「最先端の速度追従」といった主張は、論文内の比較条件に依存します。実環境タスクの成功率は、VLMプランナーの性能や対象物・環境にも左右されます。
教師方策の品質（特に安全フィルタの設計）が生徒モデルの挙動に大きく影響するため、教師設計のノウハウが必要です。

実務での使いどころ（要約）

工場や倉庫、家庭環境などで人間型ロボットに自然言語で多様な作業を指示するシステムに応用できます。VLM計画器が高レベルなタスク指示を発行し、HANDOFFがそれを安全に全身動作へ変換するため、タスクごとに制御器を再学習する必要がありません。デモやプロトタイピングにおいて、歩行・操作・転倒復帰までを単一の制御器で扱える点が大きな利点となります。