世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-05

Qwen3.6がClaude Opus 4.7に勝った？例の「ペリカン・ベンチマーク」で起きた小さな大事件

キーポイント

Simon Willisonが、恒例の「ペリカンが自転車に乗る絵」を使って、最新モデルを軽く比較した
その結果、Qwen3.6-35B-A3B が Claude Opus 4.7 よりうまいSVGイラストを出した
しかもQwenは、MacBook Pro上でローカル実行した量子化モデル（軽量化版）だった
ただしこれは「モデルの総合力ランキング」ではなく、あくまで半分ジョークの絵描きテスト
それでも、ローカルLLMの性能がかなり侮れないことを感じさせる結果だった

本文

AI界隈には、真面目なベンチマークが山ほどあります。
でも Simon Willison の有名な「pelican riding a bicycle」ベンチマークは、その中でもかなり異色です。

ざっくり言うと、「ペリカンが自転車に乗る絵を生成させて、どれだけそれっぽく描けるかを見る」という、かなりふざけたテストです。
普通に考えれば「そんなものでモデルの性能がわかるの？」となるのですが、Simon はこれを半ば冗談として続けてきました。

今回の記事では、その最新回として、2026年4月16日に発表された2つの注目モデルを比べています。

Qwen3.6-35B-A3B（Alibaba系）
Claude Opus 4.7（Anthropic）

まず結論：ペリカンはQwenの勝ち

Simon が今回出した絵の比較では、
Qwen3.6-35B-A3B のほうが良いペリカンを描いた、という判定でした。

特に Claude Opus 4.7 は、自転車のフレームをうまく描けなかったそうです。
このあたり、AIの絵って一見「それっぽい」けど、よく見ると構造が壊れていることがあるんですよね。
個人的には、こういう「ちゃんと自転車に見えるか」は、AI画像生成の地味だけど本質的な弱点が出やすいポイントだと思います。

しかも面白いのは、Qwen側がただのクラウドAPIではなく、
20.9GBの量子化済みモデルを MacBook Pro M5 上で動かしていたことです。

ここで出てくる「量子化」は、モデルを軽くしてローカルで動かしやすくする技術です。
精度と引き換えにサイズを小さくする感じですね。
つまり、Simon は「自分のノートPCで動く比較的小さなモデル」で、巨大な商用モデルに勝った、と書いているわけです。これはかなり痛快です。

Claude Opus 4.7 をもう一回試してもダメ

Simon は Opus 4.7 に対して、もう一度試しています。
そのときは thinking_level: max を指定したそうです。

これはざっくり言うと、「もっとじっくり考えてから答えてね」という設定のようなものです。
ただ、それでも結果はあまり改善しなかったとのこと。

こういうの、ちょっと人間っぽくて面白いです。
「よし、もう一回本気出して」って言っても、期待したほど変わらない。
AIにも得手不得手があるし、設定をいじれば何でも解決するわけではない、という現実が見えます。

「本当にQwenが上？」という疑いも少し出る

Simon はここで、少し冗談まじりに
「もしかして各社、僕のこのくだらないベンチマーク用に学習してるんじゃないか？」
という疑念にも触れています。

もちろん彼自身は、本気ではそう思っていないと言っています。
ただ、今回の結果は「ちょっと怪しいぞ」と思わせるくらいにはQwenが良かった、という話です。

その疑いを確かめるために、彼は秘密の予備テストとして
「フラミンゴが一輪車に乗るSVGを生成して」
というお題も試しています。

ここでのポイントは、SVG です。
SVGは、画像を点や線の情報で表す形式で、拡大しても荒れにくいのが特徴です。
つまり単なる絵ではなく、構造をちゃんと組み立てられるかが試されるわけです。

この追加テストでも、Simon は Qwen3.6-35B-A3B のほうを採用しています。
理由のひとつとして、Qwen のSVGに入っていた

というコメントも評価していました。

このノリ、好きです。
技術的にはSVGの中身の質を見ているのですが、同時に「こういう遊び心をちゃんと入れられるモデルっていいよね」という人間的な好みもにじんでいます。

でも、このベンチマークは本気にしすぎないほうがいい

ここが一番大事です。

Simon 自身もはっきり書いていますが、この ペリカン・ベンチマークは最初からジョーク です。
「AIモデルを比較するための堅牢なテスト」として使うものではありません。

要するに、

ちゃんとした研究用ベンチマークではない
でも、モデルのクセや絵作りの傾向は少し見える
そして何より、話題としておもしろい

という立ち位置です。

ただ、面白いのはここからです。
このジョークベンチマーク、昔は「くだらないけど、性能の差がなんとなく見える」程度だったのに、最近ではかなり実用寄りの絵が出るようになってきた、とSimon は言っています。

たとえば、Gemini 3.1 Pro は、場合によっては「普通にどこかで使えそうな」レベルの絵を出してきたこともあるそうです。
ペリカンが自転車に乗ってる絵に実用性があるのかはかなり怪しいですが、そこは話の趣旨ではありません。
つまり、AIが絵の構造を保ちながらSVGを出す能力自体が、かなり上がっているということです。

ただし、今回の結果は「ローカルLLMがすごい」ことも示している

Simon は最後に、かなり冷静にこうまとめています。

Qwen はすごく尊敬している
でも、21GBの量子化版Qwenが、Anthropicの最新のproprietary modelより総合的に強いとは思わない
それでも、ペリカンのSVGを作る用途に限れば、今はQwen3.6-35B-A3Bをローカルで動かすほうが有利かもしれない

このバランス感覚が、いかにも Simon Willison らしいです。
「一つの面白いタスクで勝った」ことと「総合性能で上回った」ことは、まったく別です。
ここを混同すると、AIニュースはすぐ話が盛られます。そこは注意したいところです。

個人的には、この話はローカルLLMの存在感がじわじわ増していることを示す小さな証拠だと思います。
クラウドの巨大モデルだけが正義、という時代ではなくなってきていて、
「自分のMacでここまでできるの？」という驚きが、かなり現実的になっています。

この記事の面白さは「勝ち負け」よりも空気感にある

この投稿の魅力は、単なるモデル比較ではありません。
むしろ、

ベンチマークなのにくだらない
くだらないのに妙に示唆がある
そして比較対象が、巨大クラウドモデルとローカル実行モデル

という、この微妙な温度差が面白いんです。

AIの話題って、つい「何点上がった」「何位になった」と硬い話になりがちです。
でも Simon のこのシリーズは、もっと人間的です。
「このペリカン、どっちが好き？」という軽い問いの中に、モデルの構造理解、出力の安定性、SVG生成のうまさみたいな要素が、意外と見えてくる。
この軽さと深さの同居が、かなり上手いなと思います。