PEFT-Arena: 安定性と可塑性の観点からパラメータ効率的ファインチューニングを理解する

背景と課題

大規模言語モデル（LLM）を特定タスクに適応させる手法として、LoRAをはじめとするパラメータ効率的ファインチューニング（PEFT）が事実上の標準になっている。しかしこれまでの評価は、ターゲットタスクの精度向上にばかり注目しており、事前学習で獲得した汎用能力がどれほど維持されているかは十分に検証されてこなかった。

著者らは、PEFTを継続学習の文脈で古くから議論されてきた「安定性と可塑性のジレンマ」、つまり新しいタスクへの適応（可塑性）と既存能力の保持（安定性）のトレードオフとして捉え直すべきだと主張する。

提案手法

本論文の貢献は大きく3つに整理できる。

PEFT-Arenaの構築

下流タスクの性能と汎用能力の保持度を同時に測定するベンチマークを構築。複数のPEFT手法を同一条件で比較し、それぞれの安定性・可塑性プロファイルを可視化する。

2つの幾何的視点による分析

重み空間（spectral analysis）: 各PEFT手法のパラメータ化が、事前学習済みモデルの特異値構造とどう相互作用するかを解析する。
活性空間（representation analysis）: ファインチューニング後に汎用能力に対応する内部表現が保たれているかを測る。忘却は「非等長な表現歪み」、つまり距離関係を保たない変形と関連していることを示す。

Path-wise rewinding

最終的なSFTチェックポイントは、適応と保持のバランス上で「行き過ぎ」になっていることが多いと観察。学習経路をさかのぼって良い動作点に戻すpost-hocな改善手法のケーススタディを提示する。

結果と意義

複数のPEFT手法を比較した結果、同程度のパラメータ予算下では直交ファインチューニング（OFT）が最も良いパレートフロンティア、すなわち適応性能と保持性能の最良のトレードオフを達成することが分かった。これは、重み更新を直交変換に制限することで事前学習の特異値構造を保ち、表現の等長性も維持しやすいためと解釈できる。

さらに、忘却の度合いを活性空間の歪みで定量化できることを示した点も重要で、PEFT手法の良し悪しを「下流精度」一本でなく多面的に判断する根拠を与える。

実務での使いどころ

企業がLLMを自社用途に適応させる際、ファインチューニング後に汎用的な指示追従や常識推論などが劣化する問題はよく観察される。本ベンチマークの考え方を取り入れれば、下流タスク精度と汎用能力保持を両軸で評価でき、PEFT手法選定の合理的な根拠が得られる。直交系の手法は忘却が問題になりやすい用途で有力候補となる。Path-wise rewindingは、既に学習済みのモデルを再学習せずに性能バランスを改善できる実用的な選択肢になり得る。

注意点・限界

本論文の評価は提案ベンチマークPEFT-Arena上での結果であり、対象タスクやモデル規模を変えると結論が変わる可能性がある。
「直交ファインチューニングが最良のパレートフロンティア」という結論は、比較対象となったPEFT手法群とパラメータ予算の設定に依存する。
Path-wise rewindingはケーススタディとして提示されており、適用範囲や信頼性をさらに検証する必要がある。
arXiv IDが通常と異なる形式（2605.28819）で記載されているため、最新の出版情報は原文を確認することを推奨する。

実務での使いどころ（要約）

自社データでLLMをファインチューニングする際に、下流タスク精度だけでなく一般能力の劣化（破滅的忘却）も同時に評価する枠組みとして活用できます。LoRA、直交ファインチューニング等の手法選定において、パラメータ予算に応じた最適手法を選ぶ指針になります。また、学習途中のチェックポイントを保存しpath-wise rewindingを行うことで、追加学習なしに既存モデルの汎用性能を回復させる運用が可能になります。