UniPool: 全層で共有するエキスパートプールによるMixture-of-Experts

背景と課題

Mixture-of-Experts（MoE、混合エキスパート）は、入力ごとに一部のエキスパート（小さなサブネットワーク）だけを活性化することで、計算コストを抑えつつパラメータ数を増やせる手法です。現在の主流MoEアーキテクチャは、Transformerの各層が独立したエキスパート集合を持つという設計を採用しています。この設計には2つの暗黙の前提があります。

各層には専用のエキスパート容量が必要である
モデルを深くすると、エキスパートパラメータも層数に比例して線形に増える必要がある

しかし著者らがDeepSeekやQwen-MoEなどの実運用MoEモデルでルーティング解析を行ったところ、深い層の学習済みルーターを一様ランダムルーティングに置き換えても、下流タスク精度の低下はわずか1.0〜1.6ポイント程度に留まることがわかりました。これは、層ごとに分離されたエキスパート容量に大きな冗長性があることを示唆しています。

提案手法

著者らはUniPoolを提案します。これは「層ごとのエキスパート所有」を廃し、全層が共通の単一エキスパートプールにアクセスする設計です。各層は独立したルーターを持ちますが、ルーティング先は同じ共有プールです。

主要な技術要素

共有エキスパートプール: モデル全体で1つのエキスパート集合を持ち、各層のルーターがそこからtop-kを選ぶ
プールレベル補助損失: 共有下での学習を安定させるため、プール全体でエキスパート利用率を均衡化する補助損失を導入
NormRouter: 共有プールへのスパースかつスケール安定なルーティングを実現するルーター

この設計により、エキスパート容量はモデル全体のアーキテクチャ予算として扱われ、深さとエキスパート数を切り離すことができます。

結果と意義

LLaMAアーキテクチャをベースに5つの規模（182M、469M、650M、830M、978Mパラメータ）でPileから30Bトークン学習した実験で、以下の結果が得られました。

損失改善: UniPoolは全規模で従来MoEベースラインより検証損失とパープレキシティを改善し、最大0.0386の損失低減を達成
パラメータ効率: 従来MoEのエキスパートパラメータ予算の41.6〜66.7%しか使わない縮小プール版でも、従来MoEと同等以上の性能を示した
深さスケーリングの新しい次元: プールサイズを明示的なハイパーパラメータとして扱える
細粒度エキスパート分解との両立: より細かいエキスパート分割の利点と組み合わせられる

これは「エキスパートパラメータは深さに対して線形に増やす必要はなく、サブリニア（緩やかな増加）でも従来MoEより効率的かつ高性能になりうる」ことを示しています。

実務での使いどころ

MoEベースの大規模言語モデルを開発・運用する組織にとって、同等性能を維持しながらエキスパートパラメータを削減できる点は、メモリ消費・モデルストレージ・配信コストの削減に直結します。深いモデルを設計する際、層ごとのエキスパート増加を抑えてパラメータ予算をプール全体に配分する設計指針として有用です。また、既存MoEモデルにおけるルーターの冗長性を診断する手法としても応用できます。

注意点・限界

検証は最大978MパラメータのLLaMAアーキテクチャで行われており、より大規模モデル（数十B以上）での挙動は今後の検証課題
学習データはPileの30Bトークンに限定されており、他のデータ分布や下流タスクでの性能は別途評価が必要
共有プール設計は層間でエキスパートが結合されるため、分散学習・推論時の通信パターンが従来MoEと異なる可能性があり、実装上の最適化が別途必要となりうる
ルーティング冗長性の観察は深い層に関するものであり、浅い層のルーターは依然として重要な役割を果たしている点に留意が必要

実務での使いどころ（要約）

大規模言語モデルを社内で訓練・運用する組織において、同等性能を維持しつつエキスパートパラメータを30〜60%削減できるため、メモリ・ストレージコストを抑えたLLM展開に有効です。特に、モデル深度を拡張したいがパラメータ予算に制約があるケースで、深さに対するエキスパート増加を抑えながら性能を確保する設計指針として活用できます。また既存のMoEモデル（DeepSeek系やQwen-MoE系）の冗長性分析にも応用でき、運用中モデルの軽量化方針を立てる参考になります。