VideoMLA: 長尺自己回帰動画拡散のための低ランク潜在KVキャッシュ

背景と課題

長尺の動画を自己回帰的に生成する因果的動画拡散モデルでは、過去フレームのキー・バリュー（KV）情報を保持するKVキャッシュが必要になる。現在主流のアプローチは「固定サイズのスライディングウィンドウ型KVキャッシュ」で、最近の研究もウィンドウ内のトークン選択や位置エンコーディングの工夫に集中してきた。

しかし、ストリーミング時のメモリと遅延を支配しているのは、各注意ヘッドごとに独立してKVを保持する「ヘッド単位のKVレイアウト」そのものであり、この部分はほぼ手付かずだった。分単位の動画を生成しようとすると、このKV肥大が深刻なボトルネックとなる。

提案手法

本論文はMulti-Head Latent Attention (MLA) を動画拡散モデルに適用した最初の研究、VideoMLAを提案する。MLAはもともと大規模言語モデルでKVキャッシュ削減のために提案された手法である。

VideoMLAの中核は次の2点である。

ヘッドごとに保持していたキーとバリューを、すべてのヘッドで共有する低ランクの「コンテンツ潜在表現」に置き換える
位置情報は分離した3D-RoPE（動画の時空間に対応した回転位置エンコーディング）の位置キーとして共有保持する

この設計により、キャッシュされる各層において、トークンあたりのKVメモリを92.7%削減する。

なぜ動画拡散でMLAが機能するのか

言語モデルでMLAを正当化する根拠は「注意行列が低ランクである」というスペクトル的な仮定である。しかし著者らは、事前学習済み動画注意機構ではこの仮定が成立しないことを示した。すなわち、エネルギーの99%を捉えるのに必要な有効ランクは、実用的な潜在次元をはるかに上回る。

それでもMLAが成功する理由を、著者らは次のように分析している。有効ランクを決めているのは事前学習済みのスペクトルではなく、MLA側のボトルネック次元そのものである。スペクトル初期化でもランダム初期化でも、初期化の時点でランク予算をほぼ使い切っており、学習はその予算内で適応していくだけである。つまり、直接的なスペクトル近似なら大きな再構成誤差が予想される圧縮率でも、VideoMLAは品質を保てる。

結果と意義

動画生成品質ベンチマークVBenchでの評価結果は次の通り。

短尺ストリーミング動画拡散のベースラインと同等の品質
長尺生成では、評価対象手法の中で最高の総合スコアを達成
B200 GPU 1枚でスループットを1.23倍に向上

意義は、KVキャッシュレイアウトという従来手付かずだった層に踏み込み、メモリと速度を大幅に改善しつつ品質を保てる設計を示した点にある。さらに、低ランク仮定が成立しない領域でもMLAが機能する原理を解明したことで、他のドメインへの適用にも示唆を与える。

実務での使いどころ

分単位の長尺動画生成を扱うプロダクトでは、KVキャッシュのメモリ制約が長さや解像度の上限を決めてしまう。VideoMLAは各層のKVメモリを9割超削減できるため、同一GPUでより長いコンテキストを扱える。これは広告動画生成、エンタメ用シーン合成、ゲーム内アセット生成などのユースケースで直接的な恩恵になる。スループット1.23倍は推論コスト削減にもつながる。

注意点・限界

評価はVBenchベンチマーク上での比較に基づく。実運用の多様なシナリオでの挙動は別途検証が必要
スループット向上の1.23倍はB200 1枚での計測値であり、別ハードウェアや別バッチ条件では異なる可能性がある
既存の事前学習済みモデルにMLAを後付けで導入する際の追加学習コストや、他の動画拡散アーキテクチャへの一般化可能性については、本要約の範囲外
低ランク仮定が成立しない中でMLAが機能する分析は経験的観察に基づくものであり、理論的保証ではない

実務での使いどころ（要約）

分単位の長尺動画を自己回帰的に生成するサービス（広告用動画、エンタメ用シーン生成、ゲーム内動画アセット生成など）でメモリ制約を緩和し、より長いコンテキストを扱えるようになる。同一GPUでより高解像度・長時間の動画生成バッチを処理できるため、推論コスト削減に直結する。動画拡散モデルの基盤実装を提供する企業や研究チームが、既存アーキテクチャを大きく変えずにKVキャッシュ削減を導入する際の設計指針となる。