捨てずに迂回させる：視覚トークンを後から復活できる経路制御でVLMを高速化

背景と課題

視覚言語モデル（VLM）は画像をエンコーダで処理し、数百から数千個の「視覚トークン」に変換してテキストトークンと一緒にデコーダ（LLM）に入力します。この視覚トークンの数が多いため、アテンション計算量とKVキャッシュ（過去の鍵・値を保存するメモリ）の消費が推論コストの大きな要因になります。

この負荷を下げるため、FastVやPDrop、Nüwaなどの視覚トークン削減手法が提案されてきました。これらは概ね「ランク＆削除（rank-and-remove）」というパラダイムに従い、アテンションスコアなどでトークンの重要度を採点し、上位だけ残して残りを永続的に捨てるというアプローチを取ります。

しかし著者らは、この「不可逆な削除」が脆弱であると指摘します。視覚トークンの重要度はデコーダの深さに応じて変化し、ある層では低スコアだったトークンが、後段の層で必要になることがあるためです。これは特に、画像内の領域や物体の位置を参照するグラウンディングを要するクエリで顕著に表れます。

提案手法

提案手法 Reroute は、削除を「復元可能なルーティング」に置き換える、学習不要（training-free）のプラグインです。

基本的な考え方は次の通りです。

各ルーティング段階で、選ばれた視覚トークンは通常通りデコーダブロックを通過する
一方、保留された（低スコアと判定された）トークンは、その段階のデコーダブロックを迂回する
迂回したトークンは破棄されず、次のルーティング判断時に候補プールへ再合流する

この「迂回して後で戻ってくる」設計により、一度低スコアと判定されたトークンも、後段で再評価され、必要なら復活できます。

Rerouteは既存の枝刈り手法のアテンションスコアによるランキング規則や段階スケジュールをそのまま再利用するため、元の手法と同じ理論的計算量（TFLOPs）クラスおよびKVキャッシュ予算クラスを維持します。つまり「捨てる代わりに迂回させる」だけで、計算コストの上限は変えていません。

結果と意義

著者らはLLaVA-1.5およびQwenをバックボーンとし、FastV・PDrop・Nüwaの各派生手法にRerouteを適用して評価しました。その結果、

攻撃的（aggressive）なトークン削減条件下で、グラウンディング性能が改善
一般的なVQA（視覚的質問応答）性能は維持

という傾向が確認されました。

この結果は、VLMにおける視覚トークン削減を「不可逆な枝刈り」としてだけ捉えるのではなく、「復元可能なルーティング」という枠組みでも捉えるべきだ、ということを示唆します。学習なしで既存手法に上乗せでき、計算予算クラスも同等という点で、実用価値の高い知見です。

実務での使いどころ

VLMを本番運用していて、推論コストやメモリ消費を抑えるためにトークン削減を導入しているケースで、特にグラウンディング系タスク（画像中の位置参照、OCR的な領域指示、製品検査など）の精度低下が課題になっている場合に有効です。

再学習が不要なため、既にデプロイ済みのVLMサービスのアテンション削減モジュールを差し替えるだけで導入でき、A/Bテストもしやすい点が魅力です。コードは公開されています（リポジトリは論文に記載）。

注意点・限界

Rerouteはあくまで既存の枝刈り手法（FastV、PDrop、Nüwa）を強化するプラグインであり、ランキング規則やスケジュール自体は元手法に依存します。元手法のスコアリングが極端に外れている場合、迂回しても救えるとは限りません。
計算量とKVキャッシュ予算は理論クラスとして同等であると主張されていますが、迂回トークンを保持・再合流させるための実装上のオーバーヘッドや、ハードウェア依存の実効性能については本要約からは詳細を断定できません。
評価はLLaVA-1.5およびQwen系のバックボーンと、3系統の派生手法に対するものであり、他アーキテクチャや他種類のトークン削減手法（例えばトークンマージ系など）への一般化可能性については追加検証が必要です。
グラウンディング改善が顕著とされる一方、すべてのタスク種別で同等の改善が得られるかどうかは、用途ごとに検証する必要があります。

実務での使いどころ（要約）

画像理解を行うチャットボットや業務用VLMで、推論コストやメモリを抑えながら精度を保ちたいときに有用です。特に、物体の位置や領域を答えるグラウンディング系のタスク（OCR、製品検査、画像内の指示参照など）で攻撃的にトークン削減した際の精度劣化を緩和できます。既存のFastVなどの枝刈り手法を再学習なしで差し替え可能なので、本番運用中のVLMサービスに低リスクで導入できます。エッジデバイスや長文・複数画像対応のVLM推論基盤でも活用余地があります。