LLMや他の大きな機械学習モデルは、ただ「この単語が効いた」「この学習データが効いた」といった単純な話では済みません。
実際には、
といった相互作用が重要です。
たとえば文章の感情分析なら、「not」と「good」が別々にあるだけではなく、**“not good” という組み合わせ**が効きます。
こういう話は人間には「そりゃそうだ」と思えるのですが、モデルを説明するときには厄介です。なぜなら、組み合わせ候補が爆発的に増えるからです。
2つの要素の組み合わせだけでも大変なのに、3つ、4つ…となると、全部を調べるのは現実的ではありません。ここが本記事の核心です。
BerkeleyのBAIR Blogでは、LLMや機械学習モデルのinteractionを効率よく見つけるための2つの手法を紹介しています。

どちらも狙いは同じで、「重要な相互作用だけを、できるだけ少ない実験で見つける」ことです。
この「実験」は、入力の一部を消したり、学習データを抜いたり、モデル内部の部品を無効化したりする ablation です。
ablation は要するに「もしこれを取り除いたら、出力はどう変わる?」を調べる方法ですね。
このブログでは、3つの文脈で ablation が出てきます。
入力文の一部を隠したり削ったりして、予測がどう変わるかを見る。
「この症状の組み合わせが診断に効いた」みたいな説明に向いています。
学習データの一部を抜いたときに、テスト時の予測がどう変わるかを見る。
「この学習例が、あの判断に効いていた」という追跡です。
モデル内部の attention head や layer などを無効化して、どの部品が効いているかを見る。
これはちょっと機械の中を直接のぞく感じで、いかにも “mechanistic” という雰囲気があります。
ただし、どの方法でも ablation は高コストです。
推論回数が増えたり、再学習が必要だったりするので、やみくもに何千回も試すわけにはいきません。
そこで登場するのが SPEX と ProxySPEX です。

SPEX は Spectral Explainer の略で、signal processing や coding theory の考え方を使っているのが特徴です。
難しそうに聞こえますが、要するにこういう発想です。
重要な相互作用はたくさんあるわけではない。
だから、全部を一つずつ調べるのではなく、うまく混ぜて測って、あとから解きほぐせばよい。
このとき研究者たちが使う重要な仮定が2つあります。
この2つがあると、「巨大な探索問題」でも、sparse recovery problem として扱えるようになります。
sparse recovery は、ざっくり言えば「少数の当たりを、混ざった信号から見つける」問題です。
医療の検査や音声処理にも似た発想があり、個人的にはこの手の“混ぜてから解く”系のアイデアはかなり好きです。賢いですよね。

SPEX の面白いところは、多くの候補相互作用をまとめて ablation し、その結果から本当に効いている相互作用を復元する点です。
力技で総当たりするのではなく、測り方そのものを工夫しているのが強い。
ProxySPEX は、SPEX の上にもう一段、別の構造を足しています。それが hierarchy です。
階層性とは、
高次の相互作用が重要なら、その下位の相互作用も重要である可能性が高い
という性質です。
たとえば、4つの単語の組み合わせが重要なら、まず2つの組み合わせや3つの組み合わせにも何かしらの兆候がある、という感じです。
これをうまく使うと、探索空間をかなり絞れます。
記事によると、ProxySPEX は SPEX と同等の性能を、約10分の1の ablation で実現します。
ここはかなりインパクトがあります。説明可能性の研究は「わかるけど重い」がつきものなので、10倍の改善は単なる改善ではなく、実用化に近づく一歩だと思います。

feature attribution は、入力のどの部分が重要だったかを知る方法です。
ただし、単語を1個ずつ見るだけだと不十分なことが多い。モデルは組み合わせで考えるからです。
SPEX は、特に長い入力で強い性能を示しています。
記事では、感情分析タスクでの性能を faithfulness という指標で評価しています。
faithfulness は「復元した重要度が、本当にモデルの振る舞いをどれくらい当てられるか」のようなものです。
要するに、説明が“それっぽい”だけでなく、実際に役立つかを見ています。
結果として、
という話です。
ここは地味に重要です。
「大規模入力でも動く」だけならよくあるのですが、ちゃんと当たることが大事です。
説明可能性の世界では、速いけど雑な説明はあまり役に立ちません。ここを正面から扱っているのが好印象です。

記事の中で個人的にいちばん印象に残ったのが、modified trolley problem の例です。
元のモラルの曖昧さを取り除き、正解が明確に “True” になるようにした問題なのに、GPT-4o mini は 8% しか正解しなかったそうです。
普通の feature attribution である SHAP は、
「trolley という単語が何度も出ること」が誤答の主因だと見ます。
でも実際には、trolley を tram や streetcar に置き換えても、予測への影響は小さい。
つまり、単語1個の重要度だけでは本質を外しているわけです。
SPEX はもっと深く見て、
の間の高次の synergy を見つけます。
この結果は、人間の直感ともかなり合っていて、いかにも「トロッコ問題らしさ」を形づくる要素がちゃんと浮かび上がっています。
しかも、その4語を同義語に置き換えると、モデルの失敗率はほぼゼロになったそうです。
これは面白いです。
単なる単語の頻度ではなく、文脈の中での役割の組み合わせが効いていた証拠になっています。

Data attribution は、「この予測には、どの学習データが効いたのか」を調べる方法です。
これは、学習データの品質管理やデバッグにとても重要です。
ProxySPEX を、CIFAR-10 で学習した ResNet に適用したところ、
synergistic interactions と redundant interactions の両方を見分けられることを示しています。
異なるクラスのデータが、組み合わさることで決定境界を作っているケース。
つまり、1つ1つは別々でも、合わせると「この境界を引くのに必要」というタイプです。
似たようなデータが重なって、同じ概念を何度も補強しているケース。
こちらは「なくても困らない重複」に近いです。
記事では、たとえば自動車の判定に、スポーツカーやトラック、配達車のような似た特徴が寄与していたり、horse の予測に、犬っぽいシルエットの画像群が影響していたりする例が挙げられています。
このレベルで見ると、「学習データって単なる行列じゃなくて、似たもの・補い合うものが絡む生態系みたいなものだな」と思います。ちょっと生々しくて面白いです。

実用面では、こうした分析から
必要な synergy は残しつつ、冗長な重複だけ削る
ようなデータ選択もできる、としています。
これはデータセットの圧縮やクレンジングに直結しそうです。
最後は mechanistic interpretability、つまりモデル内部の部品の解析です。
ここでは attention head や layer が対象になります。
ProxySPEX を使うと、どの head 同士の関係が、特定の振る舞いを作っているかまで見えてきます。
記事では、MMLU の highschool-us-history タスクで、ProxySPEX に基づく pruning(不要そうな head を削ること)が、他の手法より良いだけでなく、タスク性能を改善する場合もあったと報告しています。
これはかなり重要です。
説明可能性が「わかった」で終わらず、モデル改善にもつながるからです。
単なる事後分析ではなく、設計や最適化に食い込んでいる感じがします。
さらに、層の深さごとの構造も面白いです。

この「浅いところは素直、深いところは協調プレイ」という絵は、直感的にもすごくしっくりきます。
モデルの内部を人間の組織にたとえるなら、前半は個人作業、後半はチーム戦、みたいな感じかもしれません。
この記事の最後では、SPEX が 数十の部品から、数千の部品まで interaction discovery を広げた、とまとめています。
しかも feature、data、model component の3つの視点をまたいで使えるのが強みです。
今後の課題としては、
が挙げられています。
ここはかなりワクワクします。
AIの説明可能性が、単に「モデルのための道具」ではなく、科学仮説を作る道具に近づいていく可能性があるからです。

個人的には、ここが本当に大事なポイントだと思います。
説明可能性は、ただ安心材料を提供するだけでは弱い。
「こういう相互作用があるはずだ」と人間が予想し、モデルがそれを掘り当てる——そんな往復運動ができると強いです。
SPEX と ProxySPEX は、LLMや機械学習モデルの中で起きている複雑な相互作用を、現実的な計算量で見つけるための手法です。
これまでの説明可能性は「どの特徴が重要か」に寄りがちでしたが、この研究はさらに一歩進んで、「何と何が組み合わさって効いたのか」を見ようとしています。
この視点はかなり本質的です。
大きなモデルほど、単発の要因よりも関係性が効く。
だからこそ、相互作用をちゃんと拾える手法は、今後もっと重要になるはずです。
そして何より、SPEX の発想は地味にすごい。
「全部調べるのは無理。でも重要なものは少ないはず」という現実的な前提から、signal processing と coding theory を使って突破する。
こういう研究は、いかにも AI 研究らしい“賢い抜け道”があって好きです。