ActCam: 動画生成におけるカメラと3Dモーションのゼロショット同時制御

背景と課題

動画生成を映像制作に活用するには、俳優の動き（パフォーマンス）とカメラの動き（シネマトグラフィー）を独立かつ細かく制御できることが重要である。既存手法の多くは、ポーズ条件のみでキャラクター動作を転写するか、カメラ軌道のみを制御するもので、両者を一貫して扱うのは難しかった。特に、視点が大きく変わる場合には、姿勢条件とカメラ条件の幾何的な整合性が崩れ、生成結果に破綻が生じやすい。

提案手法

ActCamは、シーン深度と人物姿勢を条件として受け付ける任意の事前学習済み画像-動画拡散モデルを土台にした、ゼロショットの同時制御手法である。

幾何整合な条件生成

動くキャラクターを含むソース動画と、目標とするカメラ軌道（内部・外部パラメータ）を入力として、フレーム間で幾何的に一貫した姿勢マップと深度マップを生成する。これにより、新しい視点から見たときにキャラクターとシーン構造が破綻しない条件信号が得られる。

2段階の条件付けスケジュール

サンプリングは1パスで行うが、デノイズの過程を2フェーズに分ける。

序盤のステップ: 姿勢と疎な深度の両方で条件付けし、シーン構造を強く固定する。
後半のステップ: 深度条件を外し、姿勢のみのガイダンスに切り替えて、高周波の細部を生成過度に制約せずに仕上げる。

この段階的な誘導により、構造の保持と自然な細部表現を両立する。

結果と意義

多様なキャラクター動作と困難な視点変化を含む複数のベンチマークで評価したところ、ポーズのみの制御や既存のポーズ＋カメラ制御手法と比べて、カメラ軌道への追従性とモーション忠実度の双方が改善した。人間評価でも、特に大きな視点変化を伴うシナリオにおいて好まれる結果が得られた。これは、カメラと整合した条件の設計と段階的なガイダンスが、追加学習なしでも強力な同時制御を可能にすることを示している。

実務での使いどころ

映像・広告・ゲームのプリビジュアライゼーションにおいて、リファレンス映像から演技を取り込みつつカメラワークを差し替える試行錯誤を高速化できる。学習が不要なため、既存の画像-動画拡散モデル資産を活かしながら、ショット設計のプロトタイピングに直接組み込みやすい。

注意点・限界

本手法は、シーン深度と人物姿勢を条件として受け取れる事前学習済み画像-動画拡散モデルの存在を前提とする。生成品質はベースモデルの能力に依存し、入力ソース動画から得られる姿勢と深度の推定精度にも左右される。詳細な制約や定量結果は原論文およびプロジェクトページを参照されたい。

実務での使いどころ（要約）

映像制作やアニメーション現場で、参考映像の演技を別のシーンに移植しつつ、カメラの寄り引きやドリー、パンを自由に再設計する用途に向く。広告・ミュージックビデオ・ゲームシネマティックなどで、追加学習なしに迅速な絵コンテ検証やプリビズが可能になる。バーチャルプロダクションでは、俳優の動きとカメラワークを別軸で詰めるワークフローを支援する。