世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

MITが示した「SEAL」とは何か：AIが自分で学び直す時代への一歩

キーポイント

MITの研究チームが、LLMが自分で“学習用データ”を作り、自分の重み（weights）を更新する枠組み「SEAL」を発表
SEALは Self-Adapting LLMs の略で、いわばAIが自分のメモを自分で書いて、自分で勉強するような仕組み
学習は reinforcement learning（強化学習） で行い、更新後の性能が良いほど報酬が高くなる
実験では、few-shot learning と knowledge integration の両方で有望な結果
ただし、catastrophic forgetting（前に覚えたことを忘れる問題）や計算コストなど、課題も残る

いま「AIの自己改善」が熱い理由

最近、「AIが自分で自分を賢くしていくのでは？」という話題がかなり盛り上がっています。
OpenAIのSam Altman氏が未来像を語ったり、研究界でも自己改善系の論文が次々に出てきたりしていて、正直ちょっとSFっぽさすらあります。

そんな中で、MITの研究チームが出したのが SEAL（Self-Adapting LLMs） です。
Syncedの記事によると、この仕組みは大規模言語モデル（LLM）が、自分で新しい学習データを作り、その内容を使って自分の重みを更新するというもの。
かなり攻めた発想です。私はこれ、かなり面白いと思います。AI研究って「より大きくする」方向の競争になりがちですが、SEALは**“どう学び続けるか”** に踏み込んでいるのがポイントです。

SEALは何をするのか

ざっくり言うと、SEALは次の流れで動きます。

モデルが新しい情報や課題を受け取る
その情報をもとに、モデル自身がself-edit（自己編集）を生成する
- これは「この情報を覚えやすい形に書き換えたメモ」みたいなもの
その自己編集を使って、モデルの重みを更新する
更新後のモデルがどれだけ課題をうまく解けるかで評価する
その結果を使って、次はもっと良い自己編集を作れるように学習する

ここで重要なのは、自己編集そのものを reinforcement learning で学ぶ点です。
つまり、「どういうメモを書けば後で成績が上がるか」を、AI自身が試行錯誤するわけです。

かなり乱暴にたとえると、
“AIが授業ノートを書いて、そのノートで自分を再教育する”
みたいな話です。人間でもうまくいく人はいますが、AI版として実現しようとしているのがSEALです。

仕組みをもう少しかみ砕く

論文の説明では、SEALは 2つのループ で考えられます。

Outer loop
自己編集の作り方を、強化学習で改善する
Inner loop
実際に作られた自己編集を使って、gradient descent（勾配降下法）でモデルを更新する

難しく聞こえますが、要するに
「作戦を考える役」と「実際に勉強する役」 が連携している、ということです。

さらに論文では、SEALは一種の meta-learning（学び方を学ぶこと）としても見られるとしています。
ここがかなり本質的で、単に知識を増やすだけでなく、**“どうやって知識を取り込むか”を最適化する**のが狙いです。

個人的には、ここに未来感があります。
AIの性能競争が進むほど、「何を知っているか」より「どう学べるか」が強く効いてくるはずだからです。

実験はどんなものだったのか

MITの研究チームは、SEALを2つの分野で試しています。

1. knowledge integration

これは、記事や文章の情報をモデルの内部知識としてうまく取り込ませるタスクです。
つまり、読んだ内容を“覚えて使える”ようにする試みです。

2. few-shot learning

これは、少数の例だけ見せられた新しいタスクに、どれだけうまく適応できるかを試すものです。
人間でいうなら、少し説明されたらすぐコツをつかめるか、みたいなイメージです。

結果はどうだったのか

Syncedの記事では、SEALは両方のタスクで有望な結果を出したとされています。

few-shot learning の結果

Llama-3.2-1B-Instruct を使った実験では、

SEAL: 72.5%
基本的な self-edits だけでRLなし: 20%
適応なし: 0%

という差が出たそうです。
これはかなり大きい改善です。もちろん「Oracle TTT」という理想的なベースラインにはまだ届かないものの、**“自己編集を学習する”ことに意味がある**と示した点は重要だと思います。

knowledge integration の結果

こちらでは、Qwen2.5-7B を使って SQuAD 記事から新しい事実を取り込ませる実験を行っています。
結果として、SEALはベースラインを一貫して上回り、さらにRLを重ねることで精度が素早く改善したとのことです。

しかも、外部で作ったデータ、たとえば GPT-4.1 生成データを使う構成よりも、数イテレーションで上回る場面があったとされています。
ここはかなり刺激的です。
「高性能モデルが作ったデータを使えば十分では？」と思いがちですが、自分の弱点に最適化された自己編集のほうが強い可能性がある、という示唆だからです。

ただし、まだ“完成品”ではない

ここは冷静に見たいところです。
論文でも、SEALにはいくつかの制約があると認められています。

catastrophic forgetting
新しいことを学ぶ代わりに、前に覚えたことを忘れてしまう問題
computational overhead
学習コストが重い、つまり計算資源を食う
context-dependent evaluation
評価が文脈に依存しやすく、万能ではない

このあたりは、自己改善AIの“夢の部分”を現実に引き戻す要素です。
正直、こういう仕組みはうまくいけばすごいけれど、運用はかなり難しいはずです。
特に「自分で学び、自分で更新する」系は、何をどこまで信頼していいのかが一気に難しくなります。
私はここが今後の大きな論点になると思います。

何がそんなに重要なのか

SEALの価値は、単に「性能が少し上がった」ことではないと思います。
本当に大きいのは、LLMが静的なモデルではなく、学び続ける存在になれるかもしれないと示した点です。

これまでの多くのLLMは、基本的に「学習済みの完成品」でした。
もちろんfine-tuningはできますが、日常的に自分で学び方を調整するわけではありません。
SEALはその壁を少し壊しに来ています。

もしこの方向が進めば、将来的には

新しい知識を素早く取り込むAI
ユーザーや業務に合わせて適応するAI
長期的に改善し続けるエージェント

みたいなものが現実味を帯びるかもしれません。

ただし、ここで大事なのは「自律性が上がるほど、管理も難しくなる」ということです。
AIが自分で賢くなるほど、何を学んだのか、なぜそうなったのか、暴走しないか を見極める必要も増えます。
この点は、ワクワクと同じくらい慎重さが必要ではないでしょうか。

率直な感想

個人的には、SEALは「AGIが来た！」みたいな派手な話ではなく、本当に実用に効く“地味だけど大事な一歩” に見えます。
AI研究って、派手なモデル発表よりも、こういう学習の仕組みを改善する研究のほうが、あとで効いてくることが多いんですよね。

しかも、自己改善というテーマは夢がある一方で、かなり危うさもある。
だからこそ、MITのように実験的でも具体的な枠組みを出してくる研究は価値が高いと思います。

今のところSEALは万能ではありません。
でも、「AIは与えられたデータで学ぶだけ」という前提を少しずつ崩し始めたという意味で、かなり象徴的な研究ではないかと思います。

参考: MIT Researchers Unveil “SEAL”: A New Step Towards Self-Improving AI | Synced

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ