世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-19

LLMはこの半年で何が変わったのか：Simon Willisonが5分でまとめた「本当に起きたこと」

まずは要点

2025年11月ごろを境に、LLMの流れがはっきり変わった
いちばん大きな変化は、coding agents（コードを書くAIの実用度）が急に上がったこと
「最強モデル」は数か月のあいだに何度も入れ替わり、Claude / OpenAI / Google が激しく競争している
open weight model（重みを公開していて、手元でも動かしやすいモデル）もかなり強くなった
ノートPCやMac Miniで動かせるモデルが、予想以上に使えるレベルになってきた
ただし、モデルの進化を測るベンチマークとして「ペリカンが自転車に乗るSVGを描かせる」というテストは、完全に“遊び心”寄りで面白い

この記事は何を伝えているのか

Simon Willison氏がPyCon US 2026で行った5分のライトニングトークをもとに、「この半年のLLM界隈で何が起きたか」をざっくり整理したのが元記事です。
本人もかなり率直で、**“いま何が重要か”を、真面目さとふざけた例を混ぜながら伝える**スタイルになっています。これが実にSimon Willisonらしいところで、難しい話を変に偉そうにしないのが好感度高いです。

彼が強調しているのは、大きく分けて2つ。

coding agentsが本当に使えるようになった
ローカルで動かせるモデルが思った以上に強くなった

この2つ、実はかなり重要です。
単に「LLMが賢くなった」というより、AIが“話せるだけ”から“仕事を手伝える”段階に入ってきた、という話だからです。

2025年11月が転換点だった

Simon氏は、2025年11月を「inflection point（転換点）」と呼んでいます。
要するに、この時期を境に空気が変わったということです。

とくにコード生成の分野で変化が大きく、OpenAIとAnthropicは2025年を通じて、Reinforcement Learning from Verifiable Rewards を進めていたと説明しています。
これは簡単にいうと、正解を判定しやすいタスクで、AIが良い結果を出すように強化学習したということです。コードはテストで正否が比較的わかりやすいので、こうした学習と相性がいいわけです。

結果として、coding agents が “often-work” から “mostly-work” に変わったと彼は言っています。
ここはかなり重要です。
「たまに使える」から「だいたい使える」になると、日常業務への入り方がまったく違います。AIって、少し賢いだけだと“おもしろいおもちゃ”で終わりがちですが、失敗の修正にかかる手間が減ると、一気に実務道具になるんですよね。個人的にも、ここは2025年後半の大きな山だったと思います。

“最強モデル”は5回入れ替わった

元記事では、主要3社のあいだで「ベストモデル」の座が半年で5回入れ替わったと述べています。
登場したモデルは次のような流れです。

2025年9月末に出た Claude Sonnet 4.5
その後 GPT-5.1
Gemini 3
GPT-5.1 Codex Max
最後に Claude Opus 4.5 が王座を取り返した

もちろんここでいう「ベスト」は、厳密なベンチマークの一点突破ではなく、雰囲気や実務感も含めた“総合的な強さ”です。
Simon氏自身も、ペリカンを自転車に乗せたSVGを描かせるという、かなりユニークなテストで違いを見ています。これ、真面目なベンチマークではないのに妙に示唆的で面白いんです。
要するに、「絵にしづらいものをどれだけ破綻なく描けるか」を見ているわけですね。

個人的には、この「最強モデルがすぐ入れ替わる」状況は、すごくAIっぽいなと思います。
昔のソフトウェアは一度王者が決まると長かったのですが、LLMは違う。学習データ、推論、エージェント設計、製品の持ち味まで絡むので、優劣が本当に動きやすい。だからこそ、話題が尽きないのでしょう。

そして本当に起きたこと：coding agents が実用域に入った

この記事の核心はここだと思います。
単なるチャットボットではなく、コードを編集し、テストし、修正しながら作業するAIエージェントが、実際に役に立つレベルに到達したという話です。

ここでいう agent は、単に文章を返すAIではありません。
ツールを使って作業を進めるAIです。たとえば、ファイルを読む、コードを書く、テストを走らせる、失敗したら直す、という流れを自動で回します。

Simon氏の言い方を借りれば、2025年11月のあと、coding agents は「かなりの頻度で仕事になる」存在になった。
これは地味ですが、かなり大きい変化です。
なぜなら、実務では“1回で完璧”よりも、7割くらい合っていて、残りを人間が直せることのほうが大切だったりするからです。

ホリデーシーズンに、みんなちょっと浮かれた

12月から1月にかけて、多くの人が新モデルや coding agents を試して、かなり興奮したそうです。
Simon氏もその一人で、いわゆる LLM psychosis のような、かなり野心的なプロジェクトをいくつも始めたと書いています。
ここは彼らしい自虐が効いていて笑えます。

その成果のひとつが、micro-javascript というプロジェクト。
これは Python 上で JavaScript を動かす、小さな実装です。しかもそのデモは、Python の中で動き、さらに Pyodide の中に入り、WebAssembly の中で動き、最終的にブラウザ上で走るという、なかなかの入れ子構造になっています。

技術好きとしてはこういうの、かなりロマンがあります。
でも本人もはっきり言っていて、「で、それを必要とする人がいたのか？」というと、いなかった。
ここがいいんです。AI時代は「作れること」と「必要とされること」がズレやすい。面白いけど、実用ではないものも大量に生まれる。その事実をちゃんと書いているのが誠実です。

February以降は「Claws」が世界を席巻

次の大きな話題は、もともと Warelay という名前だったプロジェクトが、試行錯誤を経て OpenClaw という名前で注目を集めたことです。
OpenClaw は「personal AI assistant（個人向けAIアシスタント）」で、ここから派生して Claws という総称まで生まれた、と記事では紹介されています。
ここでの “Claws” は、NanoClaw や ZeroClaw のような系統をまとめる呼び名です。

この流れで面白いのが、Mac Mini が売り切れたという話。
理由は、みんな自分の Claw をローカルで動かすために買っていたから。
つまり、AIを雲の向こうのサービスとして使うだけではなく、自分の机の上の小さなコンピュータに住まわせる方向に需要が出てきたわけです。

Simon氏はこれを、デジタルペットになぞらえています。
Mac Mini はその水槽、という比喩がうまい。かなり変な比喩ですが、妙にしっくりきます。
個人的にも、この“自分で面倒を見るAI”という感覚は、今後もっと広がるのではないかと思います。便利さだけでなく、プライバシーやコスト、応答速度の面でも魅力があるからです。

画像生成・アニメーションも地味に進化している

記事では、モデルに「ペリカンが自転車に乗る絵」を描かせたり、さらにアニメーションまでさせたりしています。
最初の頃は、かなり変な絵になったり、構造が壊れたりしていたのですが、徐々に改善していきます。

たとえば Google の Jeff Dean が、

ペリカンが自転車に乗る
カエルがペニー・ファージングに乗る
キリンが小さな車を運転する
ダチョウがローラースケートをする
カメがスケートボードでキックフリップする
といったアニメーション動画を投稿した、と紹介されています。

これ、単なるおふざけに見えて、実は結構重要です。
「長い指示に従って、複数の要素を保ったまま破綻なく生成できるか」は、LLMやマルチモーダルモデルの実力を測るうえで、かなり本質的なんですよね。

オープンウェイトモデルがかなり強くなった

最後のほうでSimon氏は、ローカルで動かせるモデルの進化もかなり強調しています。

Gemma 4

Googleの Gemma 4 シリーズは、
米国企業の出す open weight model の中では、かなり高性能だと述べています。
open weight model は、モデルの“重み”を公開しているモデルのことです。ざっくりいえば、自分の手元で動かしやすく、カスタマイズしやすいタイプですね。

GLM-5.1

中国のAIラボ GLM が出した GLM-5.1 は、なんと 1.5TB の open weight モデル。
これはかなり大きく、性能は高いものの、動かすには相応のハードウェアが必要です。
つまり「すごいけど、誰でも気軽に」というより、資金と設備がある人向けですね。

Qwen3.6-35B-A3B

さらに、Qwen のモデルも紹介されています。
Simon氏のノートPCで動く Qwen3.6-35B-A3B が、Claude Opus 4.7 よりよいペリカンを描いたという話には驚きます。
ただし彼自身も、これはもはやペリカン自転車テストがベンチマークとして限界に達していることを示しているだけかもしれない、と言っています。
この自己ツッコミがよいですね。ベンチマークは便利ですが、やりすぎると“何を測っているのか”が怪しくなる。これはAI界隈あるあるです。

この半年で見えた、2つの大きな流れ

Simon Willison氏は最後に、ここ半年のテーマをこうまとめています。

coding agents が本当に良くなった
ローカルで使えるモデルが、期待以上に強くなった

この2つが同時に進んだのが面白いところです。
前者は「仕事を任せられる方向」への進化。
後者は「自分の手元で動かせる方向」への進化。

つまりLLMは、

クラウド上の巨大モデルとしても進化し
端末上で動く小型モデルとしても進化している

という、かなり幅広い広がり方をしているわけです。

個人的には、これはかなり大きな転換だと思います。
AIが「デカい1社のすごいサービス」だけの話ではなくなってきた。
企業の基盤にも、個人の実験にも、ローカル環境にも入り込む“実用インフラ”に近づいている、そんな印象があります。

まとめ

この5分トークの魅力は、単に新モデル名を並べたニュースまとめではなく、**“実際に何が変わったか”を、使い手の視点で語っていること**です。
とくに重要なのは、LLMが「文章を出すAI」から「仕事を進めるAI」へ少しずつ変わってきたこと。そして、ローカル実行の選択肢が一気に現実的になってきたことです。

派手な見出しより、こういう地味で本質的な変化のほうが、後から振り返ると大きかったりします。
Simon Willisonの記事は、その“地味だけど本当に効いている変化”を、ペリカンと自転車で軽快に見せてくれるのが楽しいところです。