スケールするほどニューロン集団は分化する：Rosettaニューロンに見るスケール則

背景と課題

これまでのスケール則研究は、損失や精度といったモデル全体のマクロな指標が、データ量・パラメータ数・計算量とどう関係するかを明らかにしてきました。しかし、モデル内部のニューロンレベルの構造がスケールに応じてどう変化するかは、ほとんど分かっていません。解釈可能性の観点からは、「大きなモデルほど内部表現は整理されるのか、それともより乱雑になるのか」という問いは重要です。

本研究は、Dravidら(2023)が提唱した『Rosettaニューロン』に着目します。これは、独立に訓練された複数のニューラルネットワークの間で類似した活性化パターンを示すニューロン群で、モデル間の普遍的な特徴を担うと考えられています。著者らは、このRosettaニューロンの数や性質がモデル規模とともにどう変わるかを系統的に調べました。

提案手法

分析対象は、最大30Bパラメータの言語モデル群と、最大5Bパラメータの画像モデル群です。独立に訓練された複数モデルのペア間で、ニューロンの活性化パターンの類似性を測定し、十分高い類似性を持つものをRosettaニューロンとして同定します。

各モデル規模について、以下を測定します。

Rosettaニューロンの絶対数と全体に占める割合
個々のニューロンの選択性（特定の入力にだけ強く反応するか）
単義性（一つの意味概念に対応しているか）
ドメイン特化の度合い

さらに著者らは、特徴の有用性とニューロン容量の制約のバランスを表現する解析的モデルを提示し、観測されたスケーリング挙動を理論的に説明します。

結果と意義

主な発見は次の通りです。

サブリニアなべき乗則

言語・画像モデルのいずれにおいても、Rosettaニューロンの数はモデル規模に対してサブリニアなべき乗則に従って増加します。つまり絶対数は増えますが、全ニューロンに対する割合は縮小していきます。

ニューロン分極効果

スケールが大きくなるほど、Rosettaニューロンはより選択的になり、単義性も高まります。一方、非Rosettaニューロン群は依然として選択性が低いままで、両者の性質は分離していきます。著者らはこれを『ニューロン分極効果』と呼んでいます。

ドメイン特化

スケールアップに伴い、Rosettaニューロンは特定のドメインに特化していく傾向があります。著者らはこれを活かして、継続事前学習のためのターゲット型データフィルタリングを実演し、実用的有効性を示しました。

これらの結果は、解釈可能で共有されたニューロンレベルの構造に対するスケール則が存在することを示唆し、モデル規模と内部表現の普遍性・選択性・特化の関係を体系的に結びつけます。

実務での使いどころ

データフィルタリング: 特定ドメインに反応するRosettaニューロンを利用して、継続事前学習のための高品質データを抽出できます。
モデル監査・解釈可能性: スケールアップに伴うニューロン構造の変化を予測でき、解釈可能性研究やアラインメント研究の手がかりになります。
スケーリング戦略: モデル拡大時に、解釈可能なニューロンがどう増減するかを見積もる指標として使えます。

注意点・限界

検証されたスケール範囲は言語30B、画像5Bまでであり、それ以上のモデルへの外挿には注意が必要です。
Rosettaニューロンの同定は活性化パターンの類似性に基づいており、類似性の閾値や測定方法に依存する可能性があります。
解析的モデルは観測現象を説明しますが、設計上の前提（特徴有用性とニューロン容量のトレードオフ）に依存しています。
データフィルタリングの応用は事例的な検証にとどまり、広範なタスクでの一般化は今後の検証課題です。

実務での使いどころ（要約）

継続事前学習やドメイン適応において、特定ドメイン（医療、法務、コードなど）に選択的に反応するRosettaニューロンを利用して、関連性の高い学習データを効率的にフィルタリングできます。また、モデルスケールアップ計画を立てる際、解釈可能なニューロン構造がどのように変化するかを予測する指標として活用でき、解釈可能性研究やモデル監査にも応用可能です。複数モデルにまたがる共通構造を見つけることで、安全性関連の機能を特定するなどアラインメント研究にも役立ちます。