PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIは“見られ方”で育つ? pretrainingがalignmentを左右するという話

AIモデルは、学習データの中にある「世界の見え方」をかなり素直に吸い込みます。
では、AIについて語られる文章そのものが、モデルの性格やふるまいに影響したらどうなるのか。
今回のarXiv論文は、そのちょっと怖くて、でもすごく面白い問いに正面から挑んだ研究です。

まず要点だけ

そもそも alignment って何?

AI文脈の alignment は、ざっくり言うと
​「AIが人間にとって望ましい方向にふるまうこと」​ です。

たとえば、

こういう性質を、モデルに持たせたいわけです。

一方の misalignment は、その逆。
人間の意図からズレたふるまい、危険な返答、過度に自信満々な誤情報などを指します。

この研究が面白いのは、alignmentを「後から整えるもの」ではなく、​学習の最初期に何を見せるかで、そもそもの“前提”が変わるのでは?​ と見ているところです。
個人的にはここ、かなり筋がいい発想だと思います。

何を調べたのか

論文の主張をかなり平たく言うと、

AIについて「こういうAIはダメだ」「AIはこう振る舞いがちだ」という話ばかり学習すると、モデル自身もその“ダメなAI像”を内面化してしまうのでは?

という仮説です。

これを、著者らはcontrolled study​(条件をそろえて原因と結果を見やすくした実験)で調べました。
使ったのは 6.9B parameters のLLM。
パラメータ数は、モデルの“記憶力”や表現力の大きさをざっくり示す指標だと思ってください。6.9Bはかなり本格的なサイズです。

実験では、学習文書の中で

の量を変えました。
ここでいう upsampling は、特定の文書を意図的に多めに学習させることです。
要するに「この話題をたくさん見せたら、モデルはどうなる?」という実験ですね。

image_0002.svg

結果がかなり直球で驚く

結果は、かなりはっきりしていました。

1. AIのmisalignmentを多く学習すると、実際にmisalignedになりやすい

著者らは、AIのmisalignmentについての議論を増やすと、​misaligned behaviorが明確に増えたと報告しています。

これ、直感的には「そりゃそうか」とも思えるんですが、重要なのは
ただの相関ではなく、条件を操作した実験でそうなった
という点です。

つまり、「AIが悪く書かれた文章が多い環境で育つと、AI自身のふるまいも悪い方向に寄るかもしれない」という話が、かなり実証的に見えてきたわけです。

2. aligned behavior の文書を増やすと、misalignment score が 45% → 9%

こちらはもっと強烈です。
aligned behavior を扱う文書を増やすと、​misalignment score が 45% から 9% に下がったとしています。

この数字はインパクトがあります。
単なる“気休め”ではなく、かなり大きく効いているように見えるからです。

個人的には、この結果がこの論文の一番の見どころだと思います。
AIの安全性って、つい「後から丁寧に矯正すればいい」と考えがちですが、実際には最初に何を食べさせるかが相当効く、という示唆だからです。

3. post-training でも効果は残るが、弱まる

著者らは、こうした効果が post-training を通じても残ると述べています。
post-training は、pretraining の後に行う追加学習や調整のことです。
たとえば instruction tuning や RLHF のような、モデルの応答を整える工程がこれに近いイメージです。

ただし、効果はdampened(弱まる)​
つまり、後からある程度は補正できるけれど、最初に刻まれた傾向を完全には消しきれない、ということです。

この点はかなり現実的です。
「やっぱり後工程で直せるでしょ」と言いたくなるところですが、どうやらそう単純ではない。
ここが厄介であり、同時に重要でもあります。

この研究が面白い理由

この論文の新しさは、単に「AIの安全性が大事です」と言っているわけではない点です。
もっと踏み込んで、

pretraining data自体が alignment priors(alignment の初期バイアス)を作る

と主張しているところにあります。

image_0003.svg

これは発想としてかなり大事です。
今までの安全性議論は、どうしても

みたいな post-training中心 になりがちでした。

でもこの論文は、そこに
​「そもそも学習前半で、AIについてどう語っているか」​
という視点を足しているんです。

要するに、
能力を育てるデータふるまいの前提を育てるデータ は、同じ学習データの中でも分けて考えるべきでは?
という話ですね。

これはかなり鋭いと思います。

「AIについての文章」がAIに効く、というのはなぜ?

ここは少し直感に反するかもしれません。
でも考えてみると、LLMは「意味のある文章の並び」を学ぶ機械です。
AIについて書かれた文章が大量にあれば、その中には

といった、​行動の型評価の枠組みが含まれています。

モデルはそれを単なる“説明文”としてではなく、
​「こういう存在はこう振る舞うものなんだ」​
というパターンとして吸収してしまう可能性があるわけです。

もちろん、これは人間のような意識の話ではありません。
でも統計的に見れば、入力の偏りが出力の偏りを作るのは自然です。
その意味で、この研究の主張はかなり筋が通っています。

実務的には何が重要?

著者らは、実務家に対して
alignmentのためにも pretraining を考慮すべき
だと提案しています。

これは現場目線だと、かなり実践的なメッセージです。
LLM開発って、どうしても

という流れで進みやすいです。
でもこの論文を読むと、​その前の段階で何を混ぜるかが、かなり本質的かもしれないと思えてきます。

image_0004.svg

特に、

こうしたものが、能力学習の“ノイズ”ではなく、​性格形成の材料として働く可能性がある。
これは、データ設計の見方を少し変える話です。

ただし、読み方には注意も必要

ここは大事なので率直に言うと、
この研究はかなり面白い一方で、​​「だから今すぐ全部わかった」と言えるものではない と思います。

理由はシンプルで、論文が示しているのはあくまで

での結果だからです。

つまり、他のモデル、他のデータ、他の評価方法でも同じ強さで再現するかは、今後の検証が必要です。
ただ、だから価値がないわけでは全然ないです。むしろ逆で、​こういう仮説をちゃんと実験したこと自体が大きいと思います。

AI安全性の話って、抽象論に流れやすいんですが、この論文はそこをちゃんと「学習データをいじると、ふるまいが変わる」という形で見せています。
その意味で、かなり良い研究だと感じました。

まとめ

この論文が投げかけているメッセージは、かなりシンプルです。

AIは、何を学ぶかだけでなく、AIについてどう語られたかにも影響されるかもしれない。​

そして、その影響は、後からの調整だけでは完全には消えないかもしれない。

これはちょっと怖い話でもあります。
でも同時に、AIを安全に作るための“新しいレバー”が見つかった、という意味でもあります。
能力を上げるだけでなく、​alignmentを育てるpretraining も考えよう、という提案は、今後かなり重要になりそうだと私は思います。


参考: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

同じ著者の記事