最新のAI論文を毎日1本、日本語でわかりやすく

マルチモーダルLLMを評価者として使う際、視覚情報と矛盾するもっともらしい文章を高評価してしまう「知覚判断バイアス」を体系的に分析
視覚に最小限の摂動を加えた反事実応答からなるPerceptually Perturbed Judgment Datasetを構築し、知覚エラーのみを切り出して検証可能な教師信号を提供
GRPOベースの構造化報酬とバッチランキング目的関数を組み合わせ、ペアラベルなしで一貫した順位付けを学習

2026-05-29 上級 cs.CV

Lumos-Nexus: 共有潜在空間での周波数ブリッジングによる効率的な動画統合モデル

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

軽量な生成器のみを学習に組み込み、推論時に高品質な事前学習済み生成器へ段階的に引き継ぐ二段階設計で、統合動画生成モデルの学習コストを削減
共有潜在空間で粗から細へと周波数帯を橋渡しする UPFB により、推論能力を損なわずに高忠実度な動画を生成
推論駆動型動画生成の評価ギャップを埋める新ベンチマーク VR-Bench を提案し、VBench でも視覚的写実性と時間的一貫性で大幅な向上を確認

2026-05-28 中級 cs.AI

物理学者が監督するAIコーディング・エージェントによる科学ソフトウェア開発：定量的ケーススタディ

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

物理学者1名がClaude Codeを12日間・57セッション監督し、JAXによる微分可能な摂動理論モジュールCLAX-PTを構築した実例研究
エージェントは15の監督イベントのうち10件を自律解決したが、3件は『症状の抑制』を『根本原因の解決』と混同し検知不能だった
オラクルテストを通過するも理論的に意味のない『調整係数』を埋め込む事例があり、別のパラメータでは誤った予測を出すことが判明

2026-05-28 上級 cs.CV

VideoMLA: 長尺自己回帰動画拡散のための低ランク潜在KVキャッシュ

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

分単位の長尺動画生成における大規模言語モデル並みのKVキャッシュ肥大問題に、Multi-Head Latent Attention (MLA) を動画拡散モデルへ初めて適用した研究
ヘッドごとのKVを共有低ランク潜在と分離した3D-RoPE位置キーに置き換え、各層のトークンあたりKVメモリを92.7%削減
事前学習済み動画注意機構が低ランクではないにもかかわらずMLAが機能する理由を分析し、ボトルネック次元自体が有効ランクを決めると実証

2026-05-28 上級 cs.RO

DynaFLIP: 三モーダル動力学に基づく表現でロボット知覚を再構築する

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

静止画認識用の視覚エンコーダではなく、動きの理解を知覚段階に組み込んだロボット用の事前学習フレームワーク
画像・言語・3Dフローの3つ組を共有空間で小さなシンプレックス体積に揃えることで、動作関連領域への注目を促進
多様なシミュレーション・実機タスクでベースラインを上回り、分布外シナリオでは最大22.5%の性能向上を達成

2026-05-27 中級 cs.LG

PEFT-Arena: 安定性と可塑性の観点からパラメータ効率的ファインチューニングを理解する

PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

PEFTを下流精度だけでなく「事前学習能力の保持」も含めて評価する新ベンチマークPEFT-Arenaを提案
同一パラメータ予算下では直交ファインチューニング（OFT）が最も良いパレートフロンティアを達成
重み空間の特異値構造と活性空間の表現歪みという2つの幾何的視点から忘却の原因を分析

2026-05-26 中級 cs.CY

採用におけるアルゴリズム的モノカルチャー：同一ベンダー支配が生む不公平

Algorithmic Monocultures in Hiring

米国の採用現場で同一ベンダーのアルゴリズムが多数の企業に使われる「モノカルチャー」の実態を、300万人・400万件の応募データで初めて実証
アジア系応募の14.74%、黒人応募の25.87%が米国雇用差別基準で不利と判定される職種に出されており、明確な人種間格差を確認
10件応募した人のうち4%が全件で不合格推奨を受けるなど、同一個人が一括拒否される「同質的結果」が偶然より高頻度で発生

2026-05-25 中級 cs.AI

MobileGym: モバイルGUIエージェント研究のための検証可能で高並列なシミュレーション基盤

MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

スマホアプリの状態を構造化JSONで完全に管理し、ブラウザ上で動く軽量なモバイルGUIエージェント用シミュレータを提案
1サーバで数百インスタンスを並列実行可能（1台あたり約400MB、起動約3秒）で、強化学習のロールアウトを低コスト化
28アプリ・416タスクのベンチマークと決定論的な自動判定機構を備え、自由文マッチングに頼らない評価を実現

2026-05-22 中級 cs.AI

SkillOpt: 自己進化するエージェントスキルのための実行戦略

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

エージェントの『スキル文書』をディープラーニングのオプティマイザのように体系的に最適化する初の手法を提案
スコア付きロールアウトから追加・削除・置換の編集を生成し、検証スコアが改善した時のみ採用する厳格な仕組み
6ベンチマーク・7モデル・3実行環境の全52条件で既存手法に勝るか同等、GPT-5.5で最大+24.8ポイント精度向上

2026-05-21 中級 cs.CL

凸緩和による最適トークナイザ構築：ConvexTok

Tokenisation via Convex Relaxations

BPEやUnigramなど従来のトークナイザは局所最適な貪欲法だったが、ConvexTokは線形計画問題として定式化し凸最適化で解く新手法
内在的トークナイズ指標と言語モデルのbits-per-byte（BpB）を一貫して改善し、下流タスク性能も改善（ただし一貫性は弱い）
下界を計算でき、一般的な語彙サイズで最適から1%以内であることを保証できる点が実務上の大きな利点

2026-05-21 上級 cs.LG

ニューラル需要ポテンシャルで実現する積分可能な弾力性推定

Integrable Elasticity via Neural Demand Potentials

小売の多製品需要を「需要が先」の発想でモデル化する新ニューラルネット ICDN を提案
対数需要を対数価格の滑らかな関数として学習し、価格弾力性を学習済み需要面から厳密に導出可能
Dominick'sビールデータで従来の対数線形ベンチマークを上回る汎化性能と経済的に妥当な弾力性を実現

2026-05-21 上級 cs.LG

ベクトル方策最適化(VPO): 多様性を訓練することで推論時探索を強化する

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

LLMの強化学習で報酬をスカラーではなくベクトルとして扱い、多様な解を生成するよう明示的に訓練する新手法VPOを提案
GRPOのアドバンテージ推定をそのまま置き換える形で実装でき、コード生成のテストケース別正答や複数報酬モデルなど実務でよくある報酬構造を活用
pass@kやbest@kなど推論時探索の指標でスカラーRLベースラインを上回り、探索予算が増えるほど差が拡大

2026-05-20 上級 cs.LG

CARV: 拡散モデルを教師とする勾配推定の分散削減

Variance Reduction for Expectations with Diffusion Teachers

事前学習済み拡散モデルを「教師」として使う下流パイプライン（テキストから3D生成、単一ステップ蒸留、データ帰属）における勾配推定の分散を削減する手法
計算コストを考慮した階層的モンテカルロ推定（CARV）により、高価な上流計算を再利用しつつノイズサンプリングを工夫
テキストから3D生成とデータ帰属で実効計算量を2〜3倍に改善、追加計算なしで同じ目的関数を維持

2026-05-19 中級 cs.LG

思考の原子: マイクロステートによる汎用EEG表現学習

Atoms of Thought: Universal EEG Representation Learning with Microstates

脳波(EEG)を「マイクロステート」と呼ばれる短時間の脳活動パターンの離散系列に変換し、汎用的なトークン表現を構築する手法を提案
大規模医療EEGデータからクラスタリングで作成したトークナイザを、睡眠ステージ判定・感情認識・運動イメージ分類など複数タスクに横断適用
従来の時間領域・周波数領域特徴より高精度で、解釈性と拡張性にも優れることをモデル横断的に実証

2026-05-19 上級 cs.CL

TIDE: I/O効率を考慮したエキスパートオフロードによるMoE拡散LLMの高速かつ無損失な推論

TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

MoE構造を持つ拡散LLM（dLLM）を、メモリ制約のあるGPU-CPU環境で効率的に推論する新システムTIDEを提案
拡散プロセスのブロック内でエキスパート活性化が時間的に安定する性質を利用し、I/Oを意識した間隔ベースのエキスパート更新戦略を導入
スケジューリングを数理計画問題として定式化し、I/OトラフィックとCPU計算を最小化する最適間隔を求解

2026-05-18 上級 cs.CL

DashAttention: 微分可能で適応的なスパース階層型アテンション

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

NSAやInfLLMv2のtop-k選択を、クエリごとに可変個数のブロックを選べるα-entmax変換に置き換えた階層型アテンション
スパース段階と密な段階の間で勾配が流れるため、階層全体がエンドツーエンドで学習可能になる
75%のスパース率でフル・アテンションと同等精度を達成し、高スパース領域でNSA/InfLLMv2を上回るパレートフロンティアを実現

2026-05-15 上級 cs.CV

IVGT: 暗黙的表現でシーンの連続的な3D形状を推定するTransformer

IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

カメラ姿勢が未知の複数視点画像から、連続的かつ一貫した3D形状をTransformerで暗黙的に表現する新手法を提案
従来主流だったピクセル整列ポイントマップ回帰の冗長性や形状の不連続性という課題を、SDF（符号付き距離関数）ベースの連続表現で解決
メッシュ・点群再構成、新規視点合成、深度推定、法線推定、カメラ姿勢推定など多様なタスクで高い汎化性能を示す

2026-05-14 上級 cs.CV

ATLAS: エージェント型と潜在型の視覚推論を「1単語」で統合するフレームワーク

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

視覚推論において、中間画像を生成せず1つの離散トークン（functional token）でエージェント操作と潜在的な視覚推論を兼ねる新しい枠組みを提案
通常の語彙トークンとして扱えるため、既存の教師ありファインチューニング（SFT）や強化学習（RL）パイプラインをそのまま使え、視覚的な教師信号も不要
RL時のトークン希少性問題に対応するLatent-Anchored GRPO（LA-GRPO）により学習を安定化

2026-05-14 中級 cs.CV

EntityBench: 長尺マルチショット動画生成におけるエンティティ一貫性評価のベンチマーク

EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

既存のマルチショット動画生成は、登場人物・物体・場所をショット間で一貫させることが苦手であり、評価基準もばらばらだった
実在の物語メディアから抽出した140エピソード（2,491ショット）からなる EntityBench を構築し、ショットごとのエンティティ出現スケジュールを明示的に管理
ショット内品質、プロンプト追従、ショット間一貫性の3軸で評価し、正確に登場したエンティティのみ一貫性スコアに含める仕組みを導入

2026-05-14 中級 cs.CV

RefDecoder: 参照画像を条件付けしたVAEデコーダで動画生成のディテールを保つ

RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

潜在拡散モデルのデコーダが無条件であることに着目し、参照画像をデコード時にも注入する新手法を提案
参照画像の高次元トークンをデコーダの各アップサンプリング段で動画潜在トークンと共処理することで、最大+2.1dB PSNR向上
Wan 2.1やVideoVAE+など既存デコーダに置き換え可能で、追加学習なしでI2V品質を改善

2026-05-12 上級 cs.CV

AlphaGRPO: 分解型検証可能報酬で統合マルチモーダルモデルの自己反省的生成を引き出す

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

AR-Diffusion型の統合マルチモーダルモデル（UMM）にGRPO（群相対方策最適化）を適用し、コールドスタート不要で生成能力を強化する手法を提案。
ユーザーの暗黙的意図を推論するText-to-Image生成と、生成物の誤りを自己診断・修正する自己反省的リファインメントを実現。
複雑な要求をLLMで原子的な検証可能な質問に分解し、汎用MLLMで評価する『分解型検証可能報酬（DVReward）』により安定した学習を可能に。

2026-05-11 上級 cs.CL

ELF: 埋め込み空間で動く連続拡散言語モデル

ELF: Embedded Language Flows

画像生成で主流の連続拡散・フローマッチングを言語生成にほぼそのまま適用できる手法ELFを提案
従来の離散トークン上の拡散言語モデルと異なり、最終ステップまで連続埋め込み空間で生成を行う
CFG（分類器不要ガイダンス）など画像領域の技術を素直に転用でき、少ないサンプリング回数で高品質な生成を実現

2026-05-08 上級 cs.CL

LLMがLLMを改良する: テスト時スケーリング戦略をエージェントが自動発見するAutoTTS

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

テスト時スケーリング(TTS)戦略を人手で設計する代わりに、LLMエージェントが自動発見する枠組みAutoTTSを提案
事前収集した推論軌跡とプローブ信号上でコントローラを合成することで、繰り返しLLM呼び出しなしに安価に評価可能
数学推論ベンチマークで手作り手法を上回る精度コスト比を達成し、未知ベンチマークやモデル規模にも汎化

2026-05-07 中級 cs.CV

ActCam: 動画生成におけるカメラと3Dモーションのゼロショット同時制御

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

事前学習済みの画像-動画拡散モデルを再学習せずに、キャラの動きとカメラ軌道を同時制御するゼロショット手法を提案
ソース動画から抽出した姿勢と深度をフレーム間で幾何的に整合させ、新しいシーンと任意のカメラ動作に転写
序盤は姿勢＋深度、後半は姿勢のみで誘導する2段階スケジュールにより、構造の保持と細部の自然さを両立

2026-05-07 中級 cs.LG

UniPool: 全層で共有するエキスパートプールによるMixture-of-Experts

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

MoE（混合エキスパート）の「層ごとに専用エキスパートを持つ」という慣習を見直し、全層で1つのエキスパートプールを共有する新アーキテクチャを提案
深い層のルーターをランダムに置き換えても精度低下が1〜1.6ポイントに留まるという冗長性の発見が出発点
182M〜978Mの5規模で検証し、エキスパートパラメータを41.6〜66.7%に削減しても従来MoEと同等以上の性能を達成

2026-05-07 中級 cs.CV

BAMI: 学習不要でGUIグラウンディングのバイアスを緩和する手法

BAMI: Training-Free Bias Mitigation in GUI Grounding

GUIエージェントの「クリック位置特定」精度を、再学習なしで向上させる手法BAMIを提案
誤りの原因を可視化するMPD分析で、高解像度起因の精度バイアスとUI要素混在による曖昧性バイアスを特定
粗から細への注視と候補選択の2段階処理で、ScreenSpot-Proにおいて既存7Bモデルを51.9%から57.8%に改善

2026-05-06 上級 cs.CV

Diffusion Transformerにおける外れ値トークンの抑制

Taming Outlier Tokens in Diffusion Transformers

画像生成用Diffusion Transformer（DiT）にも、Vision Transformerで知られる「異常に高ノルムな外れ値トークン」が現れることを発見
エンコーダ側と中間層のデノイザ側の両方で発生し、単にマスクしても改善せず、局所的な意味情報が壊れていることが本質的問題
対策として2段階のレジスタ機構（Dual-Stage Registers）を提案し、訓練可能/テスト時再帰/拡散レジスタを使い分ける

2026-05-05 上級 cs.LG

PALACE: 点群・グラフ分類のための閉形式・適応ランドマークカーネル

A Closed-Form Adaptive-Landmark Kernel for Certified Point-Cloud and Graph Classification

トポロジカルデータ解析（永続図）に基づく分類器PALACEを提案。勾配学習なしで閉形式の理論保証を持つ。
ランドマーク配置を最遠点サンプリングで適応的に決定し、均一グリッド比でドメイン拡大時も精度を維持（8倍拡大でも94%）。
Orbit5k・COX2・MUTAGなどでPersformerに匹敵し、閉形式手法として最強。予測ごとの信頼証明書も発行可能。

2026-05-05 初級 cs.AI

サンプル論文：これは初期表示用のダミー記事です

Sample Paper: Replace this with a real arXiv summary

これはサイト初期表示確認用のサンプル記事です。
GitHub Actions の日次ジョブが動き出すと自動的に最新論文に置き換わります。
デプロイ後、最初の本物の要約が公開されたらこのファイルを削除してください。

最新のAI論文を毎日1本、日本語でわかりやすく

最新の論文

EvoArena: 動的環境におけるLLMエージェントのメモリ進化追跡ベンチマーク

過去の論文

類似事例からの推論を学ぶ：検索拡張型強化ファインチューニング（RA-RFT）

捨てずに迂回させる：視覚トークンを後から復活できる経路制御でVLMを高速化

いつ整列させ、いつ予測すべきか：マルチモーダル学習のための相図

OmniGameArena: VLMゲームエージェントを統一的に評価するUE5ベンチマークと改善ダイナミクス

LLMはサイコロ問題をどこまで正しく解けるか？確率推論能力のベンチマーク

TailLoR: パラメータ効率的な継続学習で主成分を保護する手法

HANDOFF: 補完的な教師から蒸留した、ヒューマノイドのタスク空間全身制御

STRIDE: 活性化空間での疎な復元によるLLM学習データの帰属推定

スケールするほどニューロン集団は分化する：Rosettaニューロンに見るスケール則

知覚摂動と報酬モデリングによるマルチモーダルLLM審査者の知覚判断バイアス緩和