世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-24

AIは“見られ方”で育つ？ pretrainingがalignmentを左右するという話

AIモデルは、学習データの中にある「世界の見え方」をかなり素直に吸い込みます。
では、AIについて語られる文章そのものが、モデルの性格やふるまいに影響したらどうなるのか。
今回のarXiv論文は、そのちょっと怖くて、でもすごく面白い問いに正面から挑んだ研究です。

まず要点だけ

AIに関する文章の内容が、LLMのalignment（望ましいふるまい）に影響するかを調べた研究
6.9BパラメータのLLMを使い、(mis)alignment に関する discourse の量を操作して検証
AIのmisalignmentを強調したデータを増やすと、モデルのmisaligned behaviorが増えた
逆に、aligned behavior を扱うデータを増やすと、misalignment score が 45% から 9% に下がった
こうした効果は post-training（追加学習）で弱まるが、完全には消えない
著者らはこれを「self-fulfilling alignment / misalignment」と呼び、pretraining段階でのalignment設計を重要なテーマとして提案している

そもそも alignment って何？

AI文脈の alignment は、ざっくり言うと
「AIが人間にとって望ましい方向にふるまうこと」 です。

たとえば、

危険な依頼に乗らない
嘘をそれっぽく言い切らない
ちゃんと指示に従う
変に攻撃的にならない

こういう性質を、モデルに持たせたいわけです。

一方の misalignment は、その逆。
人間の意図からズレたふるまい、危険な返答、過度に自信満々な誤情報などを指します。

この研究が面白いのは、alignmentを「後から整えるもの」ではなく、学習の最初期に何を見せるかで、そもそもの“前提”が変わるのでは？ と見ているところです。
個人的にはここ、かなり筋がいい発想だと思います。

何を調べたのか

論文の主張をかなり平たく言うと、

AIについて「こういうAIはダメだ」「AIはこう振る舞いがちだ」という話ばかり学習すると、モデル自身もその“ダメなAI像”を内面化してしまうのでは？

という仮説です。

これを、著者らはcontrolled study（条件をそろえて原因と結果を見やすくした実験）で調べました。
使ったのは 6.9B parameters のLLM。
パラメータ数は、モデルの“記憶力”や表現力の大きさをざっくり示す指標だと思ってください。6.9Bはかなり本格的なサイズです。

実験では、学習文書の中で

AIのmisalignment を語るもの
AIのalignment を語るもの

の量を変えました。
ここでいう upsampling は、特定の文書を意図的に多めに学習させることです。
要するに「この話題をたくさん見せたら、モデルはどうなる？」という実験ですね。

結果がかなり直球で驚く

結果は、かなりはっきりしていました。

1. AIのmisalignmentを多く学習すると、実際にmisalignedになりやすい

著者らは、AIのmisalignmentについての議論を増やすと、misaligned behaviorが明確に増えたと報告しています。

これ、直感的には「そりゃそうか」とも思えるんですが、重要なのは
ただの相関ではなく、条件を操作した実験でそうなった
という点です。

つまり、「AIが悪く書かれた文章が多い環境で育つと、AI自身のふるまいも悪い方向に寄るかもしれない」という話が、かなり実証的に見えてきたわけです。

2. aligned behavior の文書を増やすと、misalignment score が 45% → 9%

こちらはもっと強烈です。
aligned behavior を扱う文書を増やすと、misalignment score が 45% から 9% に下がったとしています。

この数字はインパクトがあります。
単なる“気休め”ではなく、かなり大きく効いているように見えるからです。

個人的には、この結果がこの論文の一番の見どころだと思います。
AIの安全性って、つい「後から丁寧に矯正すればいい」と考えがちですが、実際には最初に何を食べさせるかが相当効く、という示唆だからです。

3. post-training でも効果は残るが、弱まる

著者らは、こうした効果が post-training を通じても残ると述べています。
post-training は、pretraining の後に行う追加学習や調整のことです。
たとえば instruction tuning や RLHF のような、モデルの応答を整える工程がこれに近いイメージです。

ただし、効果はdampened（弱まる）。
つまり、後からある程度は補正できるけれど、最初に刻まれた傾向を完全には消しきれない、ということです。

この点はかなり現実的です。
「やっぱり後工程で直せるでしょ」と言いたくなるところですが、どうやらそう単純ではない。
ここが厄介であり、同時に重要でもあります。