本文へスキップ
AI論文ダイジェスト

最新のAI論文を毎日1本、日本語でわかりやすく

arXivに公開された最新のAI論文を、毎日1本ずつ日本語でわかりやすく要約してお届け。研究者から実務でAIを活用したい人まで役立つ、現場目線のダイジェストです。

最新の論文

cs.CL

EvoArena: 動的環境におけるLLMエージェントのメモリ進化追跡ベンチマーク

EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments

  • 環境が時間とともに変化する状況でLLMエージェントを評価する新ベンチマークEvoArenaを提案
  • 端末・ソフトウェア・社会的選好の3領域で段階的更新を扱い、現行エージェントの平均精度は39.6%にとどまる
  • メモリの更新履歴をパッチ形式で構造化保存するEvoMemにより、EvoArenaで1.5%、GAIAで6.1%、LoCoMoで4.8%の精度向上
  • 環境変化を「評価」と「メモリ」の両面でモデル化する重要性を示し、実運用に近いエージェント開発に貢献

続きを読む →

過去の論文

上級 cs.CL

類似事例からの推論を学ぶ:検索拡張型強化ファインチューニング(RA-RFT)

Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

  • 意味的類似ではなく『推論パターンの類似』で文脈を検索する新方式を提案
  • 金ラベルからの蒸留で検索器を訓練し、強化学習で推論軌跡の活用法を学ばせる
  • AIME 2025でGRPOを最大7.1ポイント上回り、報酬設計とは独立した改善軸を示した
中級 cs.CV

捨てずに迂回させる:視覚トークンを後から復活できる経路制御でVLMを高速化

Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

  • 視覚トークンを「捨てる」のではなく「迂回」させて後段で復活可能にする学習不要のプラグイン手法を提案
  • 従来の枝刈り手法と同等の計算量・KVキャッシュ予算を保ちつつ、特に位置参照(グラウンディング)性能を改善
  • FastV、PDrop、NüwaなどをLLaVA-1.5やQwenベースで強化し、攻撃的なトークン削減下でも精度を維持
上級 cs.LG

いつ整列させ、いつ予測すべきか:マルチモーダル学習のための相図

When to Align, When to Predict: A Phase Diagram for Multimodal Learning

  • クロスモーダル整列(CA)とクロスモーダル予測(CP)が成功・失敗する条件を統一的に理論解析した研究
  • 信号+ノイズの線形モデルから、両手法の分離比を導出し『両方有効/CAのみ/CPのみ/どちらも無効』の4領域からなる相図を提示
  • 少量のラベル付きデータで自分のデータセットが相図のどこに位置するか診断し、訓練前に最適な目的関数を選べる
中級 cs.CV

OmniGameArena: VLMゲームエージェントを統一的に評価するUE5ベンチマークと改善ダイナミクス

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

  • Unreal Engine 5で新規構築した12種類のゲーム(ソロ7、対戦3、協力2)を統一行動インタフェースで提供するベンチマーク
  • 初回スコアだけでなく、振り返りによる改善曲線(IDC)と保留タスクへの汎化を観測する評価枠組みを導入
  • 商用VLM、オープンVLM、専用ゲームポリシーを同一条件で比較可能にし、エージェント開発者の実装選択を支援
中級 cs.CL

LLMはサイコロ問題をどこまで正しく解けるか?確率推論能力のベンチマーク

How reliable are LLMs when it comes to playing dice?

  • 最新8モデルを離散確率問題でテストし、標準問題は正解率96%だが直感に反する問題では59%に低下
  • 表現を変えるだけで性能が20%以上、誤誘導を含めると最大34%低下し、トークンバイアスを実証
  • 数学難問を解けるLLMでも真の確率推論はできておらず、業務で確率判断に使う際の注意喚起となる
上級 cs.LG

TailLoR: パラメータ効率的な継続学習で主成分を保護する手法

TailLoR: Protecting Principal Components in Parameter-Efficient Continual Learning

  • 事前学習済み重みの特異値分解の基底を固定参照系として利用し、特異値行列に低ランク更新を加える新手法
  • 主要な特異方向への更新を抑制するソフトスペクトルペナルティにより、既存知識への干渉を防ぐ
  • 適応を柔軟性の高い長尾(ロングテール)スペクトル領域に誘導し、継続学習での性能維持を実現
上級 cs.RO

HANDOFF: 補完的な教師から蒸留した、ヒューマノイドのタスク空間全身制御

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

  • タスク計画と全身制御の橋渡しとして、直感的かつ汎用的でモジュラーなコマンド空間を新たに提案
  • 全身動作追従・歩行・転倒復帰の3つの専門教師を、文脈に応じたゲーティング付きMoE生徒モデルへKL蒸留して統合
  • Unitree G1実機で最先端の速度追従性能と広い操作ワークスペースを実現し、VLM計画器による自然言語タスクも追加学習なしで実行可能
上級 cs.LG

STRIDE: 活性化空間での疎な復元によるLLM学習データの帰属推定

STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

  • LLMの予測がどの学習データ由来かを追跡する新手法を提案。勾配ベースではなく活性化空間で機能的影響をモデル化
  • データ部分集合で学習したときの挙動変化を模倣する軽量な『ステアリング演算子』を学習し、圧縮センシング的な疎復元として影響を分解
  • 事前学習データ帰属でSOTAを達成しつつ従来手法より13倍高速。データ選別・汚染検出にも応用可能
中級 cs.LG

スケールするほどニューロン集団は分化する:Rosettaニューロンに見るスケール則

Neuron Populations Exhibit Divergent Selectivity with Scale

  • 独立に訓練されたモデル間で共通して現れる『Rosettaニューロン』が、モデル規模に対しサブリニアなべき乗則で増えることを発見
  • 言語モデル(最大30B)・画像モデル(最大5B)の両方で、Rosettaニューロンの絶対数は増えるが全体に占める割合は減少
  • スケールが大きくなるほどRosettaニューロンは選択性・単義性が高まり、非Rosetta群と分離する『ニューロン分極効果』を観測
上級 cs.CV

知覚摂動と報酬モデリングによるマルチモーダルLLM審査者の知覚判断バイアス緩和

Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

  • マルチモーダルLLMを評価者として使う際、視覚情報と矛盾するもっともらしい文章を高評価してしまう「知覚判断バイアス」を体系的に分析
  • 視覚に最小限の摂動を加えた反事実応答からなるPerceptually Perturbed Judgment Datasetを構築し、知覚エラーのみを切り出して検証可能な教師信号を提供
  • GRPOベースの構造化報酬とバッチランキング目的関数を組み合わせ、ペアラベルなしで一貫した順位付けを学習
上級 cs.CV

Lumos-Nexus: 共有潜在空間での周波数ブリッジングによる効率的な動画統合モデル

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

  • 軽量な生成器のみを学習に組み込み、推論時に高品質な事前学習済み生成器へ段階的に引き継ぐ二段階設計で、統合動画生成モデルの学習コストを削減
  • 共有潜在空間で粗から細へと周波数帯を橋渡しする UPFB により、推論能力を損なわずに高忠実度な動画を生成
  • 推論駆動型動画生成の評価ギャップを埋める新ベンチマーク VR-Bench を提案し、VBench でも視覚的写実性と時間的一貫性で大幅な向上を確認
中級 cs.AI

物理学者が監督するAIコーディング・エージェントによる科学ソフトウェア開発:定量的ケーススタディ

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

  • 物理学者1名がClaude Codeを12日間・57セッション監督し、JAXによる微分可能な摂動理論モジュールCLAX-PTを構築した実例研究
  • エージェントは15の監督イベントのうち10件を自律解決したが、3件は『症状の抑制』を『根本原因の解決』と混同し検知不能だった
  • オラクルテストを通過するも理論的に意味のない『調整係数』を埋め込む事例があり、別のパラメータでは誤った予測を出すことが判明
上級 cs.CV

VideoMLA: 長尺自己回帰動画拡散のための低ランク潜在KVキャッシュ

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

  • 分単位の長尺動画生成における大規模言語モデル並みのKVキャッシュ肥大問題に、Multi-Head Latent Attention (MLA) を動画拡散モデルへ初めて適用した研究
  • ヘッドごとのKVを共有低ランク潜在と分離した3D-RoPE位置キーに置き換え、各層のトークンあたりKVメモリを92.7%削減
  • 事前学習済み動画注意機構が低ランクではないにもかかわらずMLAが機能する理由を分析し、ボトルネック次元自体が有効ランクを決めると実証
上級 cs.RO

DynaFLIP: 三モーダル動力学に基づく表現でロボット知覚を再構築する

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

  • 静止画認識用の視覚エンコーダではなく、動きの理解を知覚段階に組み込んだロボット用の事前学習フレームワーク
  • 画像・言語・3Dフローの3つ組を共有空間で小さなシンプレックス体積に揃えることで、動作関連領域への注目を促進
  • 多様なシミュレーション・実機タスクでベースラインを上回り、分布外シナリオでは最大22.5%の性能向上を達成
中級 cs.LG

PEFT-Arena: 安定性と可塑性の観点からパラメータ効率的ファインチューニングを理解する

PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

  • PEFTを下流精度だけでなく「事前学習能力の保持」も含めて評価する新ベンチマークPEFT-Arenaを提案
  • 同一パラメータ予算下では直交ファインチューニング(OFT)が最も良いパレートフロンティアを達成
  • 重み空間の特異値構造と活性空間の表現歪みという2つの幾何的視点から忘却の原因を分析
中級 cs.CY

採用におけるアルゴリズム的モノカルチャー:同一ベンダー支配が生む不公平

Algorithmic Monocultures in Hiring

  • 米国の採用現場で同一ベンダーのアルゴリズムが多数の企業に使われる「モノカルチャー」の実態を、300万人・400万件の応募データで初めて実証
  • アジア系応募の14.74%、黒人応募の25.87%が米国雇用差別基準で不利と判定される職種に出されており、明確な人種間格差を確認
  • 10件応募した人のうち4%が全件で不合格推奨を受けるなど、同一個人が一括拒否される「同質的結果」が偶然より高頻度で発生
中級 cs.AI

MobileGym: モバイルGUIエージェント研究のための検証可能で高並列なシミュレーション基盤

MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

  • スマホアプリの状態を構造化JSONで完全に管理し、ブラウザ上で動く軽量なモバイルGUIエージェント用シミュレータを提案
  • 1サーバで数百インスタンスを並列実行可能(1台あたり約400MB、起動約3秒)で、強化学習のロールアウトを低コスト化
  • 28アプリ・416タスクのベンチマークと決定論的な自動判定機構を備え、自由文マッチングに頼らない評価を実現
中級 cs.AI

SkillOpt: 自己進化するエージェントスキルのための実行戦略

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

  • エージェントの『スキル文書』をディープラーニングのオプティマイザのように体系的に最適化する初の手法を提案
  • スコア付きロールアウトから追加・削除・置換の編集を生成し、検証スコアが改善した時のみ採用する厳格な仕組み
  • 6ベンチマーク・7モデル・3実行環境の全52条件で既存手法に勝るか同等、GPT-5.5で最大+24.8ポイント精度向上
中級 cs.CL

凸緩和による最適トークナイザ構築:ConvexTok

Tokenisation via Convex Relaxations

  • BPEやUnigramなど従来のトークナイザは局所最適な貪欲法だったが、ConvexTokは線形計画問題として定式化し凸最適化で解く新手法
  • 内在的トークナイズ指標と言語モデルのbits-per-byte(BpB)を一貫して改善し、下流タスク性能も改善(ただし一貫性は弱い)
  • 下界を計算でき、一般的な語彙サイズで最適から1%以内であることを保証できる点が実務上の大きな利点
上級 cs.LG

ニューラル需要ポテンシャルで実現する積分可能な弾力性推定

Integrable Elasticity via Neural Demand Potentials

  • 小売の多製品需要を「需要が先」の発想でモデル化する新ニューラルネット ICDN を提案
  • 対数需要を対数価格の滑らかな関数として学習し、価格弾力性を学習済み需要面から厳密に導出可能
  • Dominick'sビールデータで従来の対数線形ベンチマークを上回る汎化性能と経済的に妥当な弾力性を実現
上級 cs.LG

ベクトル方策最適化(VPO): 多様性を訓練することで推論時探索を強化する

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

  • LLMの強化学習で報酬をスカラーではなくベクトルとして扱い、多様な解を生成するよう明示的に訓練する新手法VPOを提案
  • GRPOのアドバンテージ推定をそのまま置き換える形で実装でき、コード生成のテストケース別正答や複数報酬モデルなど実務でよくある報酬構造を活用
  • pass@kやbest@kなど推論時探索の指標でスカラーRLベースラインを上回り、探索予算が増えるほど差が拡大
上級 cs.LG

CARV: 拡散モデルを教師とする勾配推定の分散削減

Variance Reduction for Expectations with Diffusion Teachers

  • 事前学習済み拡散モデルを「教師」として使う下流パイプライン(テキストから3D生成、単一ステップ蒸留、データ帰属)における勾配推定の分散を削減する手法
  • 計算コストを考慮した階層的モンテカルロ推定(CARV)により、高価な上流計算を再利用しつつノイズサンプリングを工夫
  • テキストから3D生成とデータ帰属で実効計算量を2〜3倍に改善、追加計算なしで同じ目的関数を維持
中級 cs.LG

思考の原子: マイクロステートによる汎用EEG表現学習

Atoms of Thought: Universal EEG Representation Learning with Microstates

  • 脳波(EEG)を「マイクロステート」と呼ばれる短時間の脳活動パターンの離散系列に変換し、汎用的なトークン表現を構築する手法を提案
  • 大規模医療EEGデータからクラスタリングで作成したトークナイザを、睡眠ステージ判定・感情認識・運動イメージ分類など複数タスクに横断適用
  • 従来の時間領域・周波数領域特徴より高精度で、解釈性と拡張性にも優れることをモデル横断的に実証
上級 cs.CL

TIDE: I/O効率を考慮したエキスパートオフロードによるMoE拡散LLMの高速かつ無損失な推論

TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

  • MoE構造を持つ拡散LLM(dLLM)を、メモリ制約のあるGPU-CPU環境で効率的に推論する新システムTIDEを提案
  • 拡散プロセスのブロック内でエキスパート活性化が時間的に安定する性質を利用し、I/Oを意識した間隔ベースのエキスパート更新戦略を導入
  • スケジューリングを数理計画問題として定式化し、I/OトラフィックとCPU計算を最小化する最適間隔を求解
上級 cs.CL

DashAttention: 微分可能で適応的なスパース階層型アテンション

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

  • NSAやInfLLMv2のtop-k選択を、クエリごとに可変個数のブロックを選べるα-entmax変換に置き換えた階層型アテンション
  • スパース段階と密な段階の間で勾配が流れるため、階層全体がエンドツーエンドで学習可能になる
  • 75%のスパース率でフル・アテンションと同等精度を達成し、高スパース領域でNSA/InfLLMv2を上回るパレートフロンティアを実現
上級 cs.CV

IVGT: 暗黙的表現でシーンの連続的な3D形状を推定するTransformer

IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

  • カメラ姿勢が未知の複数視点画像から、連続的かつ一貫した3D形状をTransformerで暗黙的に表現する新手法を提案
  • 従来主流だったピクセル整列ポイントマップ回帰の冗長性や形状の不連続性という課題を、SDF(符号付き距離関数)ベースの連続表現で解決
  • メッシュ・点群再構成、新規視点合成、深度推定、法線推定、カメラ姿勢推定など多様なタスクで高い汎化性能を示す
上級 cs.CV

ATLAS: エージェント型と潜在型の視覚推論を「1単語」で統合するフレームワーク

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

  • 視覚推論において、中間画像を生成せず1つの離散トークン(functional token)でエージェント操作と潜在的な視覚推論を兼ねる新しい枠組みを提案
  • 通常の語彙トークンとして扱えるため、既存の教師ありファインチューニング(SFT)や強化学習(RL)パイプラインをそのまま使え、視覚的な教師信号も不要
  • RL時のトークン希少性問題に対応するLatent-Anchored GRPO(LA-GRPO)により学習を安定化
中級 cs.CV

EntityBench: 長尺マルチショット動画生成におけるエンティティ一貫性評価のベンチマーク

EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

  • 既存のマルチショット動画生成は、登場人物・物体・場所をショット間で一貫させることが苦手であり、評価基準もばらばらだった
  • 実在の物語メディアから抽出した140エピソード(2,491ショット)からなる EntityBench を構築し、ショットごとのエンティティ出現スケジュールを明示的に管理
  • ショット内品質、プロンプト追従、ショット間一貫性の3軸で評価し、正確に登場したエンティティのみ一貫性スコアに含める仕組みを導入
中級 cs.CV

RefDecoder: 参照画像を条件付けしたVAEデコーダで動画生成のディテールを保つ

RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

  • 潜在拡散モデルのデコーダが無条件であることに着目し、参照画像をデコード時にも注入する新手法を提案
  • 参照画像の高次元トークンをデコーダの各アップサンプリング段で動画潜在トークンと共処理することで、最大+2.1dB PSNR向上
  • Wan 2.1やVideoVAE+など既存デコーダに置き換え可能で、追加学習なしでI2V品質を改善
上級 cs.CV

AlphaGRPO: 分解型検証可能報酬で統合マルチモーダルモデルの自己反省的生成を引き出す

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

  • AR-Diffusion型の統合マルチモーダルモデル(UMM)にGRPO(群相対方策最適化)を適用し、コールドスタート不要で生成能力を強化する手法を提案。
  • ユーザーの暗黙的意図を推論するText-to-Image生成と、生成物の誤りを自己診断・修正する自己反省的リファインメントを実現。
  • 複雑な要求をLLMで原子的な検証可能な質問に分解し、汎用MLLMで評価する『分解型検証可能報酬(DVReward)』により安定した学習を可能に。
上級 cs.CL

ELF: 埋め込み空間で動く連続拡散言語モデル

ELF: Embedded Language Flows

  • 画像生成で主流の連続拡散・フローマッチングを言語生成にほぼそのまま適用できる手法ELFを提案
  • 従来の離散トークン上の拡散言語モデルと異なり、最終ステップまで連続埋め込み空間で生成を行う
  • CFG(分類器不要ガイダンス)など画像領域の技術を素直に転用でき、少ないサンプリング回数で高品質な生成を実現
上級 cs.CL

LLMがLLMを改良する: テスト時スケーリング戦略をエージェントが自動発見するAutoTTS

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

  • テスト時スケーリング(TTS)戦略を人手で設計する代わりに、LLMエージェントが自動発見する枠組みAutoTTSを提案
  • 事前収集した推論軌跡とプローブ信号上でコントローラを合成することで、繰り返しLLM呼び出しなしに安価に評価可能
  • 数学推論ベンチマークで手作り手法を上回る精度コスト比を達成し、未知ベンチマークやモデル規模にも汎化
中級 cs.CV

ActCam: 動画生成におけるカメラと3Dモーションのゼロショット同時制御

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

  • 事前学習済みの画像-動画拡散モデルを再学習せずに、キャラの動きとカメラ軌道を同時制御するゼロショット手法を提案
  • ソース動画から抽出した姿勢と深度をフレーム間で幾何的に整合させ、新しいシーンと任意のカメラ動作に転写
  • 序盤は姿勢+深度、後半は姿勢のみで誘導する2段階スケジュールにより、構造の保持と細部の自然さを両立
中級 cs.LG

UniPool: 全層で共有するエキスパートプールによるMixture-of-Experts

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

  • MoE(混合エキスパート)の「層ごとに専用エキスパートを持つ」という慣習を見直し、全層で1つのエキスパートプールを共有する新アーキテクチャを提案
  • 深い層のルーターをランダムに置き換えても精度低下が1〜1.6ポイントに留まるという冗長性の発見が出発点
  • 182M〜978Mの5規模で検証し、エキスパートパラメータを41.6〜66.7%に削減しても従来MoEと同等以上の性能を達成
中級 cs.CV

BAMI: 学習不要でGUIグラウンディングのバイアスを緩和する手法

BAMI: Training-Free Bias Mitigation in GUI Grounding

  • GUIエージェントの「クリック位置特定」精度を、再学習なしで向上させる手法BAMIを提案
  • 誤りの原因を可視化するMPD分析で、高解像度起因の精度バイアスとUI要素混在による曖昧性バイアスを特定
  • 粗から細への注視と候補選択の2段階処理で、ScreenSpot-Proにおいて既存7Bモデルを51.9%から57.8%に改善
上級 cs.CV

Diffusion Transformerにおける外れ値トークンの抑制

Taming Outlier Tokens in Diffusion Transformers

  • 画像生成用Diffusion Transformer(DiT)にも、Vision Transformerで知られる「異常に高ノルムな外れ値トークン」が現れることを発見
  • エンコーダ側と中間層のデノイザ側の両方で発生し、単にマスクしても改善せず、局所的な意味情報が壊れていることが本質的問題
  • 対策として2段階のレジスタ機構(Dual-Stage Registers)を提案し、訓練可能/テスト時再帰/拡散レジスタを使い分ける
上級 cs.LG

PALACE: 点群・グラフ分類のための閉形式・適応ランドマークカーネル

A Closed-Form Adaptive-Landmark Kernel for Certified Point-Cloud and Graph Classification

  • トポロジカルデータ解析(永続図)に基づく分類器PALACEを提案。勾配学習なしで閉形式の理論保証を持つ。
  • ランドマーク配置を最遠点サンプリングで適応的に決定し、均一グリッド比でドメイン拡大時も精度を維持(8倍拡大でも94%)。
  • Orbit5k・COX2・MUTAGなどでPersformerに匹敵し、閉形式手法として最強。予測ごとの信頼証明書も発行可能。