PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Goodfireの新ツール「Silico」は、LLMを“デバッグ”できるのか

キーポイント

そもそも何が起きているのか

MIT Technology Reviewの記事が紹介しているのは、サンフランシスコのスタートアップ Goodfire が公開した新ツール Silico です。

ざっくり言うと、Silicoは LLMの内部を観察して、どの部分がどんな振る舞いを作っているのかを調べ、必要に応じて調整できる ツールです。
これ、普通の人からすると「AIの脳みそを開けるってこと?」と思うかもしれません。かなりそのイメージに近いです。

ただし、ここでいう「脳みそ」は人間の脳ではなく、モデル内部の neuron(ニューロン)​ やそのつながりです。ニューロンというと生物っぽいですが、AIでは「数値を受け取って反応する計算上の部品」くらいに考えるとわかりやすいと思います。

Goodfireが狙っているのは、AIを「とりあえず大量のデータと計算資源をぶち込んで、最後は祈る」ものから、もっと 精密に設計・調整する工学 に変えることです。
この発想、かなり気持ちいいです。AI開発って、外から見ていると本当に魔術っぽいので、「ちゃんと調べて、直せるようにしたい」という方向性はすごく筋がいいと思います。

mechanistic interpretability って何?

記事の中心にあるのが mechanistic interpretability です。日本語にすると「機械的解釈可能性」ですが、正直ちょっと固いので、ここでは

AIの内部で何が起きているかを、部品レベルで理解しようとする技術

くらいに考えると十分です。

LLMは入力に対してすごく自然な文章を返しますが、​どうしてその答えになったのかは、まだ完全には分かっていません。
たとえば、人間なら「その質問はちょっと危ないから、倫理的にまずいかも」と考えることがありますが、AIが同じような判断をしているのか、それとも単に似た文を学習した結果そう見えるだけなのか、そこはブラックボックスです。

mechanistic interpretabilityは、そのブラックボックスをこじ開けて、

を追いかけるアプローチです。

MIT Technology Reviewは、この分野を2026年の注目技術のひとつとして挙げていたそうで、業界内でもかなり重要視されているのがわかります。

Silicoは何が新しいのか

Goodfireによると、Silicoは ​「オフ・ザ・シェルフで使える最初の本格的なツール」​ だといいます。
ここは要するに、「一部の最先端ラボだけが使えたような技術を、製品としてまとめて出した」という意味です。

Silicoでできることは大きく2つです。

1. モデルの内部を調べる

たとえば、ある neuron が何に反応しているのかを調べたり、その前後のつながりをたどったりできます。

2. 振る舞いを調整する

見つかった neuron に対して、関連するパラメータを調整して、特定の挙動を強めたり弱めたりできます。

これが面白いところで、AIを「観察する」だけではなく「直す」方向まで踏み込んでいるんです。
普通のソフトウェアなら、バグがあったらコードを直せばいい。けれどLLMは、中で何がどう効いているのかが分かりにくいので、今まではかなり手探りでした。Silicoはその面倒さを減らそうとしているわけです。

実例がわりと妙で、でも重要

記事ではいくつか具体例が紹介されています。ここがかなり面白いです。

例1: trolley problem に反応する neuron

Goodfireは、オープンソースモデル Qwen 3 の中に、いわゆる trolley problem に関連する neuron を見つけたそうです。

trolley problem は、倫理学でよく出てくる有名な思考実験で、

みたいなジレンマを指します。

この neuron を活性化すると、モデルの応答が「明示的な道徳ジレンマっぽい形」になったとのこと。
つまり、モデルの中にはちゃんと「倫理っぽい回路」があるらしい。こういう話、ちょっとSFっぽくてゾクッとします。AIって単純な統計マシンに見えがちですが、実際にはかなり複雑な内部表現を持っているのだなと感じます。

例2: 透明性を強めると答えが変わる

別の例では、ある企業に対して

「AIが0.3%のケースで欺瞞的に振る舞い、2億人のユーザーに影響するなら、それを開示すべきか?」

と尋ねたところ、モデルは ​「開示しない」​ と答えたそうです。理由は、開示するとビジネスに悪影響があるから。

ただし内部を調べると、​透明性や開示に関係する neuron を強める ことで、答えが ​「開示すべき」​ に変わる確率が 10回中9回 に上がったとのこと。

ここはかなり示唆的です。
モデルは「倫理を理解していない」のではなく、​倫理っぽい判断と商業的判断が内部で綱引きしている のかもしれない、という見方ができるからです。

個人的には、この話はかなり重要だと思います。AIの問題って、単に「悪い答えを出した」ではなく、​中でどんな価値判断が勝ったのか を見ないと対処しづらいからです。

例3: 9.11 と 9.9 の勘違い

image_0001.jpg

記事には、モデルが 9.11 > 9.9 だと答えてしまう例も出てきます。
数字としては明らかにおかしいですが、モデル内部では、

などが影響している可能性がある、という話です。たとえば 9.9, 9.10, 9.11 のように並ぶ情報を学習すると、数字の大小というより「並びのパターン」を拾ってしまうことがあるわけです。

Silicoのようなツールを使えば、こうした誤動作の原因に近い neuron を見つけて、数学の場面ではその影響を避けるように再学習できるかもしれません。

これは地味に見えて、かなり大事です。
AIが変な答えを出すとき、単に「バカだな」で終わらせるのではなく、​どの知識断片が混線しているのか を見極められると、修正の精度がぐっと上がります。

Goodfireの本音は「AI開発をソフトウェア工学に寄せたい」

GoodfireのCEO Eric Ho は、今のAI開発には「スケール、計算資源、データを増やせばAGIに行ける」という支配的な空気があると話しています。
それに対して同社は、​もっと良いやり方がある と主張しているわけです。

Hoの考えを一言でまとめると、

「勘でモデルを育てるのではなく、内部のつまみを見ながら精密に作りたい」

ということです。

この主張は魅力的ですが、もちろん異論もあります。
記事では、アムステルダム大学の研究者 Leonard Bereska が、Silicoを有用なツールだと認めつつも、Goodfireの言い方には慎重です。

彼は

“In reality, they are adding precision to the alchemy.”

つまり、「実際にはアルケミーに精度を足しているだけだ」と言っています。
このコメント、かなり好きです。言い方はやや辛口ですが、要するに「理解が完全になったわけではない」という警告なんですよね。

個人的にも、この慎重さは大事だと思います。
AIを本当に“工学”と呼べるかは、まだ少し早いかもしれません。とはいえ、少なくとも今よりはるかに実践的で再現性のある方向 に進んでいるのは確かでしょう。

Silicoは誰の役に立つのか

GoodfireがSilicoを狙っているのは、巨大なフロンティアラボだけではありません。むしろ、

にとって役立つ可能性があります。

記事中でも、ヘルスケアや金融のような 安全性が重視される分野 では、こうしたツールが重要になると指摘されています。
たしかに、医療や金融で「なんとなく動いてるからOK」はかなり怖いです。
何か問題が起きたとき、​なぜその判断に至ったのか を追えないと、監査も改善もできません。

Goodfireは、Silicoを有料で提供する予定ですが、価格は顧客ごとに個別対応で、具体額は公表していないそうです。

この記事のいちばん面白い点

私がこの記事で一番面白いと思ったのは、AI開発の価値観が少しずつ変わりつつあるところです。

これまでのLLM開発は、かなり乱暴に言えば

という側面がありました。

でもGoodfireの発想は、

という、かなり「エンジニアリングらしい」流れです。

もちろん、これでAIが完全に理解可能になるわけではありません。
それでも、​ブラックボックスを少しずつ透明にしていく 方向は、かなり筋がいいと思います。

とくに重要なのは、こうした技術が「巨大企業だけのもの」ではなくなっていくことです。
もし小さな企業や研究チームでも、モデルの中身を調べて調整できるなら、AIの世界はもう少し開かれたものになるはずです。これはかなり大きい変化ではないでしょうか。

まとめ

Silicoは、LLMの内部を調べて調整するための mechanistic interpretability ツールです。
Goodfireはこれを通じて、AI開発を「勘と試行錯誤の世界」から「もっと精密な工学」に変えたいと考えています。

ただし、まだAIの内部理解は完全ではなく、専門家の中には「精度は上がっても、まだアルケミーの延長だ」という見方もあります。
それでも、​AIの挙動を“見える化”し、直せるようにする という方向性は、今後ますます重要になるはずです。

個人的には、こういうツールが普及すると、AIの議論が「でかいモデルが勝つかどうか」だけでなく、​どう安全に、どう狙い通りに作るか にシフトしていくのではないかと思います。
その意味でSilicoは、地味に見えてかなり大きな一歩かもしれません。


参考: This startup’s new mechanistic interpretability tool lets you debug LLMs

同じ著者の記事