STRIDE: 活性化空間での疎な復元によるLLM学習データの帰属推定

背景と課題

学習データ帰属（TDA）は、LLMの特定の予測がどの学習データの影響で生じたかを追跡する技術であり、モデル監査・データ選別・著作権検証などの基盤となる。理想は学習データを足し引きして再学習する因果的介入だが、LLMで何度も再学習するのは計算的に非現実的である。

そこで多くの既存手法は勾配を用いてパラメータ空間で影響を近似してきた。しかし数十億規模のパラメータについて勾配を追跡するのは膨大なコストがかかり、しかも局所近似に依存するため精度に限界がある。

提案手法

本論文は発想を転換し、パラメータの変化を推定するのではなく、学習データが活性化空間にもたらす機能的な影響をモデル化する。提案手法 STRIDE（Steering-based Training Data Influence Decomposition）の特徴は以下の通り。

ステアリング演算子の学習

データの部分集合で学習した場合に生じる挙動の変化（behavioral shift）を模倣する、軽量な『ステアリング演算子』を学習する。これは活性化空間に作用する小さな摂動として表現される。

圧縮センシング的な疎復元

これらの演算子がテストプロンプトの予測をどう摂動させるかを測定し、TDAを疎な線形分解問題として定式化する。圧縮センシングの考え方を用い、多数の学習例の中から影響の大きい少数の例を疎に復元する。

結果と意義

LLMの事前学習データ帰属でSOTAを達成。
従来手法と比べて約13倍高速であり、大規模モデルへの適用性が大幅に向上。
下流応用として、データ選別（data selection）、データ汚染検出（test setが学習データに混入していないか）、定性分析を実施し、実用性を確認している。

パラメータ空間の勾配追跡から活性化空間の機能的モデリングへ視点を移したことで、スケーラビリティと精度の両立が可能になった点が本研究の核心である。

実務での使いどころ

モデル監査: 問題のある出力（誤情報・偏見・著作権を侵害しうる生成）が、どの学習データに起因しているかを特定する。
データキュレーション: 性能や特定能力の向上に寄与するデータを選別し、効率的に再学習・追加学習を行う。
データ汚染検出: 評価ベンチマークが事前学習データに含まれてしまっていないかを検証し、評価の信頼性を担保する。
定性分析: モデルがある回答に至った根拠データを示すことで、説明責任や透明性の向上に貢献する。

注意点・限界

本手法は依然として『活性化空間での挙動模倣』に基づくため、真の因果的介入（再学習による検証）の完全な代替ではない。ステアリング演算子が実際の学習による変化をどこまで忠実に再現できるかは、設定に依存する可能性がある。
疎復元の前提（影響を持つ学習例が少数である）が成り立たないケースでは精度が低下する可能性がある。
論文では事前学習帰属に焦点が当たっており、ファインチューニングやRLHFなど他の学習段階への一般化については別途検討が必要である。
具体的な実験対象モデル・データ規模など詳細条件については原論文を参照されたい。

実務での使いどころ（要約）

LLM運用において、特定の出力（誤情報・著作権侵害・有害発言など）がどの学習データに起因するかを高速に特定する監査用途に活用できる。また、性能向上に寄与するデータを選別する学習データキュレーション、評価ベンチマークが学習データに混入していないかを検証するデータ汚染検出、モデル挙動の定性分析にも応用できる。従来手法より一桁速いため、大規模モデルでも現実的な計算コストで運用しやすい。