PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

MITが示した「SEAL」とは何か:AIが自分で学び直す時代への一歩

キーポイント

いま「AIの自己改善」が熱い理由

最近、「AIが自分で自分を賢くしていくのでは?」という話題がかなり盛り上がっています。
OpenAIのSam Altman氏が未来像を語ったり、研究界でも自己改善系の論文が次々に出てきたりしていて、正直ちょっとSFっぽさすらあります。

そんな中で、MITの研究チームが出したのが SEAL(Self-Adapting LLMs)​ です。
Syncedの記事によると、この仕組みは大規模言語モデル(LLM)が、自分で新しい学習データを作り、その内容を使って自分の重みを更新するというもの。
かなり攻めた発想です。私はこれ、かなり面白いと思います。AI研究って「より大きくする」方向の競争になりがちですが、SEALは**“どう学び続けるか”** に踏み込んでいるのがポイントです。

SEALは何をするのか

ざっくり言うと、SEALは次の流れで動きます。

  1. モデルが新しい情報や課題を受け取る
  2. その情報をもとに、モデル自身がself-edit(自己編集)​を生成する
    • これは「この情報を覚えやすい形に書き換えたメモ」みたいなもの
  3. その自己編集を使って、モデルの重みを更新する
  4. 更新後のモデルがどれだけ課題をうまく解けるかで評価する
  5. その結果を使って、次はもっと良い自己編集を作れるように学習する

ここで重要なのは、​自己編集そのものを reinforcement learning で学ぶ点です。
つまり、「どういうメモを書けば後で成績が上がるか」を、AI自身が試行錯誤するわけです。

かなり乱暴にたとえると、
“AIが授業ノートを書いて、そのノートで自分を再教育する”
みたいな話です。人間でもうまくいく人はいますが、AI版として実現しようとしているのがSEALです。

仕組みをもう少しかみ砕く

論文の説明では、SEALは 2つのループ で考えられます。

難しく聞こえますが、要するに
​「作戦を考える役」と「実際に勉強する役」​ が連携している、ということです。

さらに論文では、SEALは一種の meta-learning​(学び方を学ぶこと)としても見られるとしています。
ここがかなり本質的で、単に知識を増やすだけでなく、​**“どうやって知識を取り込むか”を最適化する**のが狙いです。

個人的には、ここに未来感があります。
AIの性能競争が進むほど、「何を知っているか」より「どう学べるか」が強く効いてくるはずだからです。

実験はどんなものだったのか

MITの研究チームは、SEALを2つの分野で試しています。

1. knowledge integration

これは、記事や文章の情報をモデルの内部知識としてうまく取り込ませるタスクです。
つまり、​読んだ内容を“覚えて使える”ようにする試みです。

2. few-shot learning

これは、少数の例だけ見せられた新しいタスクに、どれだけうまく適応できるかを試すものです。
人間でいうなら、​少し説明されたらすぐコツをつかめるか、みたいなイメージです。

結果はどうだったのか

Syncedの記事では、SEALは両方のタスクで有望な結果を出したとされています。

few-shot learning の結果

Llama-3.2-1B-Instruct を使った実験では、

という差が出たそうです。
これはかなり大きい改善です。もちろん「Oracle TTT」という理想的なベースラインにはまだ届かないものの、​**“自己編集を学習する”ことに意味がある**と示した点は重要だと思います。

knowledge integration の結果

こちらでは、Qwen2.5-7B を使って SQuAD 記事から新しい事実を取り込ませる実験を行っています。
結果として、SEALはベースラインを一貫して上回り、さらにRLを重ねることで精度が素早く改善したとのことです。

しかも、外部で作ったデータ、たとえば GPT-4.1 生成データを使う構成よりも、​数イテレーションで上回る場面があったとされています。
ここはかなり刺激的です。
「高性能モデルが作ったデータを使えば十分では?」と思いがちですが、​自分の弱点に最適化された自己編集のほうが強い可能性がある、という示唆だからです。

ただし、まだ“完成品”ではない

ここは冷静に見たいところです。
論文でも、SEALにはいくつかの制約があると認められています。

このあたりは、自己改善AIの“夢の部分”を現実に引き戻す要素です。
正直、こういう仕組みはうまくいけばすごいけれど、運用はかなり難しいはずです。
特に「自分で学び、自分で更新する」系は、何をどこまで信頼していいのかが一気に難しくなります。
私はここが今後の大きな論点になると思います。

何がそんなに重要なのか

SEALの価値は、単に「性能が少し上がった」ことではないと思います。
本当に大きいのは、​LLMが静的なモデルではなく、学び続ける存在になれるかもしれないと示した点です。

これまでの多くのLLMは、基本的に「学習済みの完成品」でした。
もちろんfine-tuningはできますが、日常的に自分で学び方を調整するわけではありません。
SEALはその壁を少し壊しに来ています。

もしこの方向が進めば、将来的には

みたいなものが現実味を帯びるかもしれません。

ただし、ここで大事なのは「自律性が上がるほど、管理も難しくなる」ということです。
AIが自分で賢くなるほど、​何を学んだのか、なぜそうなったのか、暴走しないか を見極める必要も増えます。
この点は、ワクワクと同じくらい慎重さが必要ではないでしょうか。

率直な感想

個人的には、SEALは「AGIが来た!」みたいな派手な話ではなく、​本当に実用に効く“地味だけど大事な一歩” に見えます。
AI研究って、派手なモデル発表よりも、こういう学習の仕組みを改善する研究のほうが、あとで効いてくることが多いんですよね。

しかも、自己改善というテーマは夢がある一方で、かなり危うさもある。
だからこそ、MITのように実験的でも具体的な枠組みを出してくる研究は価値が高いと思います。

今のところSEALは万能ではありません。
でも、​​「AIは与えられたデータで学ぶだけ」という前提を少しずつ崩し始めたという意味で、かなり象徴的な研究ではないかと思います。


参考: MIT Researchers Unveil “SEAL”: A New Step Towards Self-Improving AI | Synced

同じ著者の記事