EntityBench: 長尺マルチショット動画生成におけるエンティティ一貫性評価のベンチマーク

背景と課題

動画生成 AI は単一ショット（カット）の生成では大きく進歩しているが、複数ショットをつないで物語を描くマルチショット生成では、ショット間で登場人物・物体・場所の見た目を一貫させることが依然として難しい。たとえば「同じ主人公が10シーン後に再登場したときに同じ顔・服装で映る」ことが保証されにくい。

さらに評価面でも、既存研究はそれぞれ独自のプロンプト集合を使い、エンティティのカバレッジが狭く、一貫性の測り方も単純なため、手法同士を公平に比較することが難しい状況にあった。

提案手法

本研究は二つの貢献からなる。

EntityBench: 評価用ベンチマーク

実在の物語メディアから抽出した 140 エピソード、合計 2,491 ショットを収録。易・中・難の3段階を用意し、難易度に応じて以下のスケールに達する:

最大 50 ショットの長尺シーケンス
ショット間をまたいで再登場する登場人物最大 13 人
ショット間で再登場する場所最大 8 箇所
ショット間で再登場する物体最大 22 個
再出現の最大ギャップは 48 ショット

各ショットには、登場するエンティティのスケジュールが明示的に付与されている点が新規である。

3軸の評価スイート

評価を次の3つに切り分ける。

ショット内品質（intra-shot quality）
プロンプト追従の正確さ
ショット間の一貫性（cross-shot consistency）

さらに「忠実度ゲート（fidelity gate）」を導入し、エンティティが正しく登場しているショットのみを一貫性スコアに通す。これにより「そもそも映っていない」状態を一貫性として誤って高く評価する問題を防いでいる。

ベースライン手法 EntityMem

比較用のベースラインとして、メモリ拡張型の生成システム EntityMem を提案する。生成を開始する前に、各エンティティについて検証済みの視覚参照（リファレンス画像）を永続メモリバンクに保存しておき、生成時に参照することでショット間の同一性を保つ仕組みである。

結果と意義

実験の主な知見は次の通り。

既存手法では、エンティティの再出現距離が長くなるほど、ショット間の一貫性が急激に低下する。
明示的にエンティティごとのメモリを持つ EntityMem は、評価対象の手法の中で人物の忠実度（Cohen’s d で +2.33 の効果量）と登場率で最高となった。

これは、長尺マルチショット動画生成において「暗黙的に学習された一貫性」だけでは不十分であり、エンティティ単位の明示的な記憶機構が有効であることを示唆している。同時に、EntityBench により標準化された比較が可能となり、今後の研究の足場が整った。

実務での使いどころ

ドラマ・アニメ・広告・教育コンテンツなど、複数カットで構成されるストーリー動画を AI で生成する現場では、キャラクターの顔立ちや衣装、舞台美術が途中で変わってしまう問題が品質上の大きなボトルネックとなる。EntityBench はこの問題を体系的に測れるため、社内モデルや外部 API を比較する標準テストとして使える。また EntityMem のように「キャラクター・小道具のリファレンス画像を永続メモリとして渡す」アプローチは、シリーズ物制作パイプラインに直接組み込みやすい設計指針となる。

注意点・限界

本ベンチマークは実在の物語メディアに由来するため、利用範囲はライセンスや公開条件に依存する可能性がある。
EntityMem はあくまでベースラインであり、より高度なメモリ管理や生成モデルとの統合は今後の課題である。
評価は人物・物体・場所のエンティティ一貫性に焦点を当てており、ナラティブの物語的整合性や演出品質などの上位概念は直接の評価対象ではない。
報告された効果量は評価された手法の集合内での比較であり、今後登場する別系統のモデルに対する優位性を保証するものではない。

実務での使いどころ（要約）

アニメ・ドラマ・広告などの長尺ストーリー動画を AI で自動生成する際、複数シーンにまたがってキャラクターや小道具・舞台の見た目を保つ品質管理に活用できる。生成モデルやプロンプト戦略を比較検証する標準ベンチマークとして、社内 R&D での性能評価に使える。さらに、EntityMem のような明示的なエンティティメモリ機構は、シリーズ物コンテンツ制作パイプラインへの組み込みが有望である。