RefDecoder: 参照画像を条件付けしたVAEデコーダで動画生成のディテールを保つ

背景と課題

動画生成の主流である潜在拡散モデルは、ノイズ除去を行うデノイザー部分にはテキストや参照画像など多くの条件を入力する設計になっています。しかし、潜在表現を実際の動画ピクセルに戻すVAEのデコーダは、ほとんどの場合「無条件」、つまり潜在トークンだけを入力として動画を再構成する構造のままです。

著者らはこの非対称性に注目し、無条件デコーダがボトルネックとなって、入力画像に存在する細部や構造が出力動画で失われ、参照画像との一貫性が損なわれていると指摘しています。デノイザーをいくら強化しても、最終出力を生成するデコーダが参照情報を知らなければ、細部の忠実な復元は難しいというわけです。

提案手法

提案するRefDecoderは、参照画像を条件として組み込んだ動画VAEデコーダです。主な仕組みは次の通りです。

軽量な画像エンコーダで参照フレーム（典型的にはI2Vの入力画像）を、ディテールに富む高次元トークン列にマッピングする
デコーダの各アップサンプリング段で、ノイズ除去済みの動画潜在トークンと、この参照トークンを「参照アテンション (reference attention)」によって共に処理する
これによりデコード過程の各解像度レベルで、参照画像の情報がピクセル復元に直接寄与する

このデコーダはWan 2.1やVideoVAE+といった既存の動画デコーダのバックボーンに対して、構造を保ったまま組み込めるよう設計されています。

結果と意義

再構成ベンチマークであるInter4K、WebVid、Large Motionにおいて、無条件ベースラインに対して最大+2.1dBのPSNR改善を達成しました。複数の異なるデコーダバックボーンで一貫して改善が見られた点が特徴です。

さらに重要なのは、RefDecoderが追加の微調整なしで既存の動画生成システムに差し替え可能である点です。I2V評価ベンチマークのVBench I2Vにおいて、被写体一貫性、背景一貫性、総合品質スコアのいずれも全般的に改善したと報告されています。

I2V以外にも、スタイル変換や動画編集の仕上げ処理など、参照画像を持つ多様な視覚生成タスクに対して汎化することが示されており、デコーダ側の条件付けという軸が見落とされてきた改善余地であることを示唆しています。

実務での使いどころ

画像から動画を生成するプロダクトを開発している場合、生成モデル全体を作り直さずに、VAEデコーダ部分だけをRefDecoderに置き換えることで、入力画像に対する忠実度を底上げできます。広告クリエイティブ、人物アバター動画、商品の動画化など、参照画像のディテール（顔の特徴、ロゴ、テクスチャ）を保ちたい用途に特に向きます。

またスタイル変換や動画編集の最終仕上げにも応用できるため、動画後処理パイプラインの一部品として再利用しやすい構成です。

注意点・限界

評価は主に再構成ベンチマーク（PSNR）とVBench I2Vの一貫性・品質スコアに基づくもので、定性的な好みや特定ドメインの実利用評価については本要約で扱う範囲外です
参照画像が存在することが前提のため、純粋なテキスト・トゥ・ビデオなど参照画像を持たないタスクへの直接適用は想定されていません
軽量とはいえ追加の画像エンコーダと参照アテンションが入るため、計算コストやメモリ消費がベース構成より増える点には留意が必要です
詳細な定量・定性結果や学習手順については原論文を参照してください

実務での使いどころ（要約）

画像から動画を生成するI2Vサービスにおいて、入力画像のディテールや人物・背景の一貫性が崩れる問題を、デコーダの差し替えだけで改善できます。既存の動画生成パイプライン（Wan 2.1やVideoVAE+など）に対して再学習なしで適用可能なため、動画広告制作・SNS向け短尺動画ツール・スタイル変換アプリ・動画編集の仕上げ処理など、品質と参照画像への忠実性を両立したい場面で導入しやすい手法です。