MobileGym: モバイルGUIエージェント研究のための検証可能で高並列なシミュレーション基盤

背景と課題

スマートフォンアプリを自動操作するGUIエージェント研究では、実機やエミュレータでの実行が一般的だが、次のような課題があった。

検証の難しさ: タスクが成功したかを判定するために自由文マッチングやLLM審判に頼ると、判定が不安定になりがち。
並列化のコスト: Androidエミュレータは重く、強化学習に必要な大量並列ロールアウトが現実的に難しい。
再現性: 実アプリは外部APIや日付・ログイン状態に依存し、同じ初期条件を再現しにくい。

これらの障壁が、オンライン強化学習による方策改善を阻む大きな要因となっていた。

提案手法

MobileGymは、これらの課題を解くために設計された、ブラウザ上で動作する軽量シミュレーション環境である。

構造化JSONによる状態管理

環境の全状態を構造化JSONとして取得・設定・分岐・比較できる。これにより、特定の状態を再現したり、ある時点から複数のロールアウトを派生させたりすることが容易になる。

並列性と低コスト

1サーバで数百インスタンスをホスト可能で、1インスタンスあたりメモリ約400MB、コールドスタート約3秒という軽量さを実現している。これによりオンラインRLのロールアウトが大規模に行える。

階層的状態モデルと宣言的タスク定義

状態を階層的に構造化することでプログラム的な操作を実用的に保ち、宣言的なタスク定義フレームワークでタスクを大量に生成可能にしている。

決定論的判定とAnswerSheetプロトコル

単一のプログラム的判定機構が、評価結果（成功/失敗）と強化学習向けの密な報酬を同時に提供する。さらにAnswerSheetプロトコルにより、自由文照合の失敗を避けて回答を構造化形式でやり取りできる。

MobileGym-Bench

28アプリにまたがる416個のパラメータ化タスクテンプレート（テスト用256、訓練用160）を備えたベンチマークが付属する。

結果と意義

Sim-to-Realのケーススタディとして、Qwen3-VL-4B-InstructにGRPO（強化学習手法）を適用した実験では、256タスクのテスト集合で精度が12.8ポイント向上した。さらに、59タスクからなる実機サブセットでの評価では、シミュレーション側で得られた訓練効果の95.1%が実機実行でも保持されることが確認された。

この結果は、軽量シミュレータでの強化学習が実機にも十分転移しうることを示しており、モバイルGUIエージェントの大規模なオンライン学習を現実的なものにする。

実務での使いどころ

モバイル自動化エージェント（RPA、音声アシスタント、アクセシビリティ補助）の方策学習基盤として使える。
並列ロールアウトが低コストなため、GRPOなどのオンラインRLを実機より遥かに高速に回せる。
決定論的判定により、リリース前の回帰テストやモデル比較のための再現可能な評価環境として活用できる。
構造化JSON状態を利用すれば、エッジケース再現やデバッグも容易になる。

注意点・限界

MobileGymは実アプリの専有バックエンドを複製するのではなく、操作の忠実性に注力した環境であるため、現実のアプリ挙動と完全一致するわけではない。
Sim-to-Realでは95.1%の効果保持が報告されているが、評価対象は59タスクの実機サブセットに限られる。
ベンチマークは28アプリ・416テンプレートが対象であり、それ以外のアプリやUIパターンへの汎化は別途検証が必要となる。

実務での使いどころ（要約）

モバイルアプリ操作を行うAIエージェント（音声アシスタント、自動操作RPA、アクセシビリティ支援ツールなど）を開発する企業が、強化学習による方策改善を低コストかつ大規模に試せる基盤として活用できる。また、エージェント性能を客観的に比較するための再現可能なベンチマークとして、研究開発の評価指標統一にも使える。実機テスト前の事前学習・回帰テスト環境としても有効で、Sim-to-Realのギャップを抑えつつ開発サイクルを高速化できる。