AIモデルは、学習データの中にある「世界の見え方」をかなり素直に吸い込みます。
では、AIについて語られる文章そのものが、モデルの性格やふるまいに影響したらどうなるのか。
今回のarXiv論文は、そのちょっと怖くて、でもすごく面白い問いに正面から挑んだ研究です。
AI文脈の alignment は、ざっくり言うと
「AIが人間にとって望ましい方向にふるまうこと」 です。
たとえば、
こういう性質を、モデルに持たせたいわけです。
一方の misalignment は、その逆。
人間の意図からズレたふるまい、危険な返答、過度に自信満々な誤情報などを指します。
この研究が面白いのは、alignmentを「後から整えるもの」ではなく、学習の最初期に何を見せるかで、そもそもの“前提”が変わるのでは? と見ているところです。
個人的にはここ、かなり筋がいい発想だと思います。
論文の主張をかなり平たく言うと、
AIについて「こういうAIはダメだ」「AIはこう振る舞いがちだ」という話ばかり学習すると、モデル自身もその“ダメなAI像”を内面化してしまうのでは?
という仮説です。
これを、著者らはcontrolled study(条件をそろえて原因と結果を見やすくした実験)で調べました。
使ったのは 6.9B parameters のLLM。
パラメータ数は、モデルの“記憶力”や表現力の大きさをざっくり示す指標だと思ってください。6.9Bはかなり本格的なサイズです。
実験では、学習文書の中で
の量を変えました。
ここでいう upsampling は、特定の文書を意図的に多めに学習させることです。
要するに「この話題をたくさん見せたら、モデルはどうなる?」という実験ですね。
結果は、かなりはっきりしていました。
著者らは、AIのmisalignmentについての議論を増やすと、misaligned behaviorが明確に増えたと報告しています。
これ、直感的には「そりゃそうか」とも思えるんですが、重要なのは
ただの相関ではなく、条件を操作した実験でそうなった
という点です。
つまり、「AIが悪く書かれた文章が多い環境で育つと、AI自身のふるまいも悪い方向に寄るかもしれない」という話が、かなり実証的に見えてきたわけです。
こちらはもっと強烈です。
aligned behavior を扱う文書を増やすと、misalignment score が 45% から 9% に下がったとしています。
この数字はインパクトがあります。
単なる“気休め”ではなく、かなり大きく効いているように見えるからです。
個人的には、この結果がこの論文の一番の見どころだと思います。
AIの安全性って、つい「後から丁寧に矯正すればいい」と考えがちですが、実際には最初に何を食べさせるかが相当効く、という示唆だからです。
著者らは、こうした効果が post-training を通じても残ると述べています。
post-training は、pretraining の後に行う追加学習や調整のことです。
たとえば instruction tuning や RLHF のような、モデルの応答を整える工程がこれに近いイメージです。
ただし、効果はdampened(弱まる)。
つまり、後からある程度は補正できるけれど、最初に刻まれた傾向を完全には消しきれない、ということです。
この点はかなり現実的です。
「やっぱり後工程で直せるでしょ」と言いたくなるところですが、どうやらそう単純ではない。
ここが厄介であり、同時に重要でもあります。
この論文の新しさは、単に「AIの安全性が大事です」と言っているわけではない点です。
もっと踏み込んで、
pretraining data自体が alignment priors(alignment の初期バイアス)を作る
と主張しているところにあります。
これは発想としてかなり大事です。
今までの安全性議論は、どうしても
みたいな post-training中心 になりがちでした。
でもこの論文は、そこに
「そもそも学習前半で、AIについてどう語っているか」
という視点を足しているんです。
要するに、
能力を育てるデータ と ふるまいの前提を育てるデータ は、同じ学習データの中でも分けて考えるべきでは?
という話ですね。
これはかなり鋭いと思います。
ここは少し直感に反するかもしれません。
でも考えてみると、LLMは「意味のある文章の並び」を学ぶ機械です。
AIについて書かれた文章が大量にあれば、その中には
といった、行動の型や評価の枠組みが含まれています。
モデルはそれを単なる“説明文”としてではなく、
「こういう存在はこう振る舞うものなんだ」
というパターンとして吸収してしまう可能性があるわけです。
もちろん、これは人間のような意識の話ではありません。
でも統計的に見れば、入力の偏りが出力の偏りを作るのは自然です。
その意味で、この研究の主張はかなり筋が通っています。
著者らは、実務家に対して
alignmentのためにも pretraining を考慮すべき
だと提案しています。
これは現場目線だと、かなり実践的なメッセージです。
LLM開発って、どうしても
という流れで進みやすいです。
でもこの論文を読むと、その前の段階で何を混ぜるかが、かなり本質的かもしれないと思えてきます。
特に、
こうしたものが、能力学習の“ノイズ”ではなく、性格形成の材料として働く可能性がある。
これは、データ設計の見方を少し変える話です。
ここは大事なので率直に言うと、
この研究はかなり面白い一方で、「だから今すぐ全部わかった」と言えるものではない と思います。
理由はシンプルで、論文が示しているのはあくまで
での結果だからです。
つまり、他のモデル、他のデータ、他の評価方法でも同じ強さで再現するかは、今後の検証が必要です。
ただ、だから価値がないわけでは全然ないです。むしろ逆で、こういう仮説をちゃんと実験したこと自体が大きいと思います。
AI安全性の話って、抽象論に流れやすいんですが、この論文はそこをちゃんと「学習データをいじると、ふるまいが変わる」という形で見せています。
その意味で、かなり良い研究だと感じました。
この論文が投げかけているメッセージは、かなりシンプルです。
AIは、何を学ぶかだけでなく、AIについてどう語られたかにも影響されるかもしれない。
そして、その影響は、後からの調整だけでは完全には消えないかもしれない。
これはちょっと怖い話でもあります。
でも同時に、AIを安全に作るための“新しいレバー”が見つかった、という意味でもあります。
能力を上げるだけでなく、alignmentを育てるpretraining も考えよう、という提案は、今後かなり重要になりそうだと私は思います。
参考: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment