知覚摂動と報酬モデリングによるマルチモーダルLLM審査者の知覚判断バイアス緩和

背景と課題

マルチモーダル大規模言語モデル（MLLM）は、画像とテキストを同時に扱える強力な推論能力を持ち、近年は他モデルの出力を採点する「自動評価者（LLM-as-a-Judge）」としての活用が広がっている。しかし本論文は、こうしたMLLM審査者に重大な弱点があることを指摘する。それは、視覚的証拠と回答テキストが矛盾している場合、MLLMは自身の視覚認識ではなく、もっともらしい説明文の方を支持してしまうという傾向である。

著者らはこれを「知覚判断バイアス（Perceptual Judgment Bias）」と名付け、視覚入力に制御された摂動を加える実験により、既存のマルチモーダル審査者がしばしば画像ではなく応答テキストに「アンカー」してしまうことを示した。この結果、評価は一貫性を欠き、検証不可能なものになってしまう。

提案手法

本論文の貢献は大きく2つある。

Perceptually Perturbed Judgment Dataset

知覚エラーのみを切り出して学習可能にするため、最小限の編集を加えた反事実的（counterfactual）応答からなるデータセットを構築する。これにより、テキストの流暢さやスタイルといった交絡因子を排除し、純粋に「知覚的に正しいか」を検証できる教師信号が得られる。

統一学習フレームワーク

このデータセットを用い、以下を組み合わせた学習フレームワークを提案する。

構造化されたGRPOベースの報酬: グループ相対方策最適化（GRPO）の枠組みで、判断の構造に沿った報酬を設計する。
バッチランキング目的関数: 明示的なペアごとのラベルを必要とせず、バッチ内の応答群に対して一貫したグローバルな順位付けを学習する。

この2つの組み合わせにより、知覚に基づいた一貫性のある評価が可能になる。

結果と意義

多様なMLLM-as-a-Judgeベンチマークでの実験により、提案手法は以下の点で大きな改善を示した。

知覚忠実性: 視覚的に正しい応答を正しく支持できる度合いの向上
順位整合性: 複数応答に対する順位付けの一貫性
人間評価との一致: 人間の判断との整合性

これにより、視覚と推論が衝突する場面でも頑健で、知覚に根ざした解釈可能な審査者を訓練するための、スケーラブルかつ汎用的な道筋が示された。

実務での使いどころ

画像生成、VQA、視覚的推論などのタスクで、MLLMを評価者として用いるパイプラインに直接適用できる。流暢な誤答を高く評価してしまう問題を緩和できるため、自動ベンチマークやRLHFの報酬モデルの信頼性向上に貢献する。製品開発の評価自動化や、視覚タスクのリーダーボード設計においても有用である。

注意点・限界

本手法は知覚エラーを切り出した反事実応答に依存しているため、データ構築のための摂動設計の質が性能を左右する可能性がある。また、論文が扱うのは主に視覚とテキストの矛盾であり、音声や動画など他のモダリティ、あるいはより抽象的な推論バイアスへの直接的な一般化は今後の検証課題となる。具体的なベンチマーク数値や摂動の詳細については原論文を参照されたい。

実務での使いどころ（要約）

画像を含む生成AIの出力を自動評価するパイプラインの精度向上に直接活用できる。例えば、VQA、画像キャプション、視覚的推論タスクなどでMLLMを評価者として使う場面で、文章の流暢さに引きずられた誤判定を減らせる。RLHFや報酬モデル学習における視覚関連タスクの教師信号の質を高め、より信頼できるリーダーボードや製品評価の自動化につながる。