PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

LLMはこの半年で何が変わったのか:Simon Willisonが5分でまとめた「本当に起きたこと」

まずは要点

この記事は何を伝えているのか

Simon Willison氏がPyCon US 2026で行った5分のライトニングトークをもとに、「この半年のLLM界隈で何が起きたか」をざっくり整理したのが元記事です。
本人もかなり率直で、​**“いま何が重要か”を、真面目さとふざけた例を混ぜながら伝える**スタイルになっています。これが実にSimon Willisonらしいところで、難しい話を変に偉そうにしないのが好感度高いです。

image_0002.jpeg

彼が強調しているのは、大きく分けて2つ。

image_0003.jpeg

  1. coding agentsが本当に使えるようになった
  2. ローカルで動かせるモデルが思った以上に強くなった

この2つ、実はかなり重要です。
単に「LLMが賢くなった」というより、​AIが“話せるだけ”から“仕事を手伝える”段階に入ってきた、という話だからです。

image_0004.jpeg

2025年11月が転換点だった

Simon氏は、2025年11月を「inflection point(転換点)」と呼んでいます。
要するに、​この時期を境に空気が変わったということです。

image_0005.jpeg

とくにコード生成の分野で変化が大きく、OpenAIとAnthropicは2025年を通じて、​Reinforcement Learning from Verifiable Rewards を進めていたと説明しています。
これは簡単にいうと、​正解を判定しやすいタスクで、AIが良い結果を出すように強化学習したということです。コードはテストで正否が比較的わかりやすいので、こうした学習と相性がいいわけです。

結果として、​coding agents が “often-work” から “mostly-work” に変わったと彼は言っています。
ここはかなり重要です。
「たまに使える」から「だいたい使える」になると、日常業務への入り方がまったく違います。AIって、少し賢いだけだと“おもしろいおもちゃ”で終わりがちですが、​失敗の修正にかかる手間が減ると、一気に実務道具になるんですよね。個人的にも、ここは2025年後半の大きな山だったと思います。

image_0006.jpeg

“最強モデル”は5回入れ替わった

元記事では、主要3社のあいだで「ベストモデル」の座が半年で5回入れ替わったと述べています。
登場したモデルは次のような流れです。

image_0007.jpeg

image_0008.jpeg

もちろんここでいう「ベスト」は、厳密なベンチマークの一点突破ではなく、​雰囲気や実務感も含めた“総合的な強さ”です。
Simon氏自身も、ペリカンを自転車に乗せたSVGを描かせるという、かなりユニークなテストで違いを見ています。これ、真面目なベンチマークではないのに妙に示唆的で面白いんです。
要するに、​
​「絵にしづらいものをどれだけ破綻なく描けるか」​
を見ているわけですね。

個人的には、この「最強モデルがすぐ入れ替わる」状況は、すごくAIっぽいなと思います。
昔のソフトウェアは一度王者が決まると長かったのですが、LLMは違う。​学習データ、推論、エージェント設計、製品の持ち味まで絡むので、優劣が本当に動きやすい。だからこそ、話題が尽きないのでしょう。

image_0009.jpeg

そして本当に起きたこと:coding agents が実用域に入った

この記事の核心はここだと思います。
単なるチャットボットではなく、​コードを編集し、テストし、修正しながら作業するAIエージェントが、実際に役に立つレベルに到達したという話です。

image_0010.jpeg

ここでいう agent は、単に文章を返すAIではありません。
ツールを使って作業を進めるAIです。たとえば、ファイルを読む、コードを書く、テストを走らせる、失敗したら直す、という流れを自動で回します。

Simon氏の言い方を借りれば、2025年11月のあと、coding agents は「かなりの頻度で仕事になる」存在になった。
これは地味ですが、かなり大きい変化です。
なぜなら、実務では“1回で完璧”よりも、​7割くらい合っていて、残りを人間が直せることのほうが大切だったりするからです。

image_0011.jpeg

ホリデーシーズンに、みんなちょっと浮かれた

12月から1月にかけて、多くの人が新モデルや coding agents を試して、かなり興奮したそうです。
Simon氏もその一人で、いわゆる LLM psychosis のような、かなり野心的なプロジェクトをいくつも始めたと書いています。
ここは彼らしい自虐が効いていて笑えます。

image_0012.jpeg

その成果のひとつが、​micro-javascript というプロジェクト。
これは Python 上で JavaScript を動かす、小さな実装です。しかもそのデモは、Python の中で動き、さらに Pyodide の中に入り、WebAssembly の中で動き、最終的にブラウザ上で走るという、なかなかの入れ子構造になっています。

image_0013.jpeg

技術好きとしてはこういうの、かなりロマンがあります。
でも本人もはっきり言っていて、​​「で、それを必要とする人がいたのか?」というと、いなかった
ここがいいんです。AI時代は「作れること」と「必要とされること」がズレやすい。面白いけど、実用ではないものも大量に生まれる。その事実をちゃんと書いているのが誠実です。

February以降は「Claws」が世界を席巻

次の大きな話題は、もともと Warelay という名前だったプロジェクトが、試行錯誤を経て OpenClaw という名前で注目を集めたことです。
OpenClaw は「personal AI assistant(個人向けAIアシスタント)」で、ここから派生して Claws という総称まで生まれた、と記事では紹介されています。
ここでの “Claws” は、NanoClaw や ZeroClaw のような系統をまとめる呼び名です。

image_0014.jpeg

この流れで面白いのが、​Mac Mini が売り切れたという話。
理由は、みんな自分の Claw をローカルで動かすために買っていたから。
つまり、AIを雲の向こうのサービスとして使うだけではなく、​自分の机の上の小さなコンピュータに住まわせる方向に需要が出てきたわけです。

image_0015.jpeg

Simon氏はこれを、​デジタルペットになぞらえています。
Mac Mini はその水槽、という比喩がうまい。かなり変な比喩ですが、妙にしっくりきます。
個人的にも、この“自分で面倒を見るAI”という感覚は、今後もっと広がるのではないかと思います。便利さだけでなく、プライバシーやコスト、応答速度の面でも魅力があるからです。

画像生成・アニメーションも地味に進化している

記事では、モデルに「ペリカンが自転車に乗る絵」を描かせたり、さらにアニメーションまでさせたりしています。
最初の頃は、かなり変な絵になったり、構造が壊れたりしていたのですが、徐々に改善していきます。

image_0016.jpeg

たとえば Google の Jeff Dean が、

image_0017.jpeg

これ、単なるおふざけに見えて、実は結構重要です。
​「長い指示に従って、複数の要素を保ったまま破綻なく生成できるか」​は、LLMやマルチモーダルモデルの実力を測るうえで、かなり本質的なんですよね。

image_0018.jpeg

オープンウェイトモデルがかなり強くなった

最後のほうでSimon氏は、ローカルで動かせるモデルの進化もかなり強調しています。

Gemma 4

Googleの Gemma 4 シリーズは、
米国企業の出す open weight model の中では、かなり高性能だと述べています。
open weight model は、モデルの“重み”を公開しているモデルのことです。ざっくりいえば、​自分の手元で動かしやすく、カスタマイズしやすいタイプですね。

image_0019.jpeg

GLM-5.1

中国のAIラボ GLM が出した GLM-5.1 は、なんと 1.5TB の open weight モデル
これはかなり大きく、性能は高いものの、​動かすには相応のハードウェアが必要です。
つまり「すごいけど、誰でも気軽に」というより、​資金と設備がある人向けですね。

image_0020.jpeg

Qwen3.6-35B-A3B

さらに、Qwen のモデルも紹介されています。
Simon氏のノートPCで動く Qwen3.6-35B-A3B が、​Claude Opus 4.7 よりよいペリカンを描いたという話には驚きます。
ただし彼自身も、これはもはやペリカン自転車テストがベンチマークとして限界に達していることを示しているだけかもしれない、と言っています。
この自己ツッコミがよいですね。ベンチマークは便利ですが、やりすぎると“何を測っているのか”が怪しくなる。これはAI界隈あるあるです。

この半年で見えた、2つの大きな流れ

Simon Willison氏は最後に、ここ半年のテーマをこうまとめています。

image_0021.jpeg

  1. coding agents が本当に良くなった
  2. ローカルで使えるモデルが、期待以上に強くなった

image_0022.jpeg

この2つが同時に進んだのが面白いところです。
前者は「仕事を任せられる方向」への進化。
後者は「自分の手元で動かせる方向」への進化。

image_0023.jpeg

つまりLLMは、

という、かなり幅広い広がり方をしているわけです。

image_0024.jpeg

個人的には、これはかなり大きな転換だと思います。
AIが「デカい1社のすごいサービス」だけの話ではなくなってきた。
企業の基盤にも、個人の実験にも、ローカル環境にも入り込む“実用インフラ”に近づいている、そんな印象があります。

image_0025.jpeg

まとめ

この5分トークの魅力は、単に新モデル名を並べたニュースまとめではなく、​**“実際に何が変わったか”を、使い手の視点で語っていること**です。
とくに重要なのは、LLMが「文章を出すAI」から「仕事を進めるAI」へ少しずつ変わってきたこと。そして、ローカル実行の選択肢が一気に現実的になってきたことです。

派手な見出しより、こういう地味で本質的な変化のほうが、後から振り返ると大きかったりします。
Simon Willisonの記事は、その“地味だけど本当に効いている変化”を、ペリカンと自転車で軽快に見せてくれるのが楽しいところです。

image_0026.jpeg


image_0027.jpeg

参考: The last six months in LLMs in five minutes

同じ著者の記事