BAMI: 学習不要でGUIグラウンディングのバイアスを緩和する手法

背景と課題

GUIエージェントが画面上のボタンやアイコンをクリック・ドラッグするには、自然言語の指示から画面上の正確な座標を特定する「GUIグラウンディング」が不可欠です。しかし、ScreenSpot-Proのような実用に近い高難度ベンチマーク(専門ソフトの高解像度UIを含む)では、既存のモデルの精度は十分ではありません。

著者らはまず、なぜモデルが間違えるのかを可視化するため、Masked Prediction Distribution (MPD) という帰属解析手法を提案しました。MPDによる分析の結果、誤りの主な原因は次の2つに整理されました。

精度バイアス (precision bias): 画像解像度が高すぎて、正しい領域を見ているのに座標がずれる
曖昧性バイアス (ambiguity bias): UI要素が密集しているため、似た要素のどれを選ぶか迷う

提案手法

上記2つのバイアスに対応するのが、学習不要の推論時手法 Bias-Aware Manipulation Inference (BAMI) です。BAMIは以下の2段階の操作で構成されます。

粗から細へのフォーカス (coarse-to-fine focus)

精度バイアスを緩和するため、まず画面全体から大まかに対象領域を特定し、その領域を拡大して再度モデルに入力します。これにより、高解像度画像で生じやすい座標のズレを抑えます。

候補選択 (candidate selection)

曖昧性バイアスを緩和するため、複数の候補位置を生成し、その中から指示文に最も合致するものを選び直します。これにより、似た要素が並ぶUIでの取り違えを減らします。

いずれの操作も既存モデルの重みを変更せず、推論パイプラインに組み込むだけで動作します。

結果と意義

BAMIを複数のGUIグラウンディングモデルに適用した結果、ScreenSpot-Proベンチマークでの精度が一貫して向上しました。代表的な例として、TianXi-Action-7Bモデルでは精度が51.9%から57.8%へと約6ポイント改善しています。

さらにアブレーション実験により、BAMIはパラメータ設定の変動に対しても安定した効果を示すことが確認されました。これは、追加学習なしで既存モデルの実用性能を底上げできるという点で実務的に重要な意義を持ちます。

実務での使いどころ

業務アプリやCAD、専門ソフトなど、要素が密集する高解像度UIを操作する自動化エージェントの精度改善
既存のVLMベースGUIエージェントを再学習せずに性能を引き上げたいケース
RPA、UIテスト自動化、アクセシビリティ支援など、クリック位置の正確性が求められる用途

コードはGitHub上で公開されており、既存のグラウンディングモデルにラッパーとして組み込むことが想定されます。

注意点・限界

評価は主にScreenSpot-Proなどのベンチマーク上で行われており、実環境のあらゆるアプリでの効果は別途検証が必要です
BAMIは推論時に複数回のモデル呼び出しを伴うため、レイテンシや計算コストは単一推論より増加する可能性があります
ベースとなるGUIグラウンディングモデル自体の能力に依存するため、極端に弱いモデルで同等の改善が得られる保証はありません
本要約は公開されたAbstract情報に基づいており、実装の詳細やハイパーパラメータの具体値については原論文およびリポジトリを参照してください

実務での使いどころ（要約）

RPAやGUI自動操作エージェントを既存のVLMベースで構築している企業が、モデルを再学習せずに高解像度デスクトップ画面上でのクリック精度を底上げするのに有用です。特にCAD、業務アプリ、専門ソフトのように要素が密集するUIでの自動操作の信頼性向上に役立ちます。テスト自動化やアクセシビリティ支援ツールにも応用が期待でき、コードが公開されているため既存パイプラインへの統合も容易です。