世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

中国のオープンウェイト模型が、Claude・GPT-5.5・Geminiを破った件をわかりやすく解説

キーポイント

ThinkPolのAI Coding Contestで、Moonshot AIのオープンウェイトモデル「Kimi K2.6」が優勝した
2位はXiaomiのMiMo V2-Pro、3位はGPT-5.5、5位はClaude Opus 4.7、6位はGemini Pro 3.1
競技は、英単語を盤面から見つけて得点するプログラミング対決
勝敗を分けたのは、盤面を動かして単語を作る“スライド”戦略だった
ただし、これは「中国勢が西側を完全に上回った」と単純に言える話ではなく、特定の課題で、特定のモデルが強かったというのが正確
一方で、公開できる重みを持つモデルがフロンティア級にかなり近づいていることは、かなり重要だと思う

そもそも何が起きたの？

ThinkPolの記事は、Rohana Rezel氏が運営する AI Coding Contest の結果を紹介しています。
これは、複数の大規模言語モデル（LLM）に、リアルタイムのプログラミング課題を解かせて、実際に動くコードを書けるかを比べる企画です。

今回の課題は Word Gem Puzzle。
ざっくり言うと、文字が並んだ盤面を動かして英単語を作り、得点を稼ぐゲームです。
見た目はパズルですが、裏では「どの盤面でどう動くと点が取れるか」を考える必要があるので、かなりAI向きの知能テストっぽい競技です。

で、その結果が面白い。
Kimi K2.6 が堂々の1位。しかも、Claude、GPT-5.5、Geminiといった有名どころを押さえての優勝です。
正直、こういう“ベンチマーク外の実戦型競技”で順位がひっくり返るのは、かなり興味深いと思います。

競技のルールは意外とシンプル、でも奥が深い

Word Gem Puzzleでは、10×10から30×30までの盤面が使われます。
盤面には文字タイルが並んでいて、1マスだけ空白があります。

プレイヤーは次のことができます。

空白の隣にあるタイルをスライドさせる
盤面上にできた英単語を宣言して得点する

ただし、単語には条件があります。

横一列か縦一列でなければならない
斜めは不可
逆向きも不可

そしてスコアがちょっとクセありです。

7文字以上の単語はプラス得点
7文字未満はむしろ減点
- 5文字は1点減
- 3文字は3点減

これは、短い単語を乱発して稼ぐのを防ぐための仕組みです。
「the」「and」「it」みたいな短語を連打して終わり、みたいなズルをさせないわけですね。
こういうルール設計、地味ですがかなり重要です。AIはルールの穴を突くのが得意なので、放っておくとすぐ“最適化の暴走”が起きます。

結果：Kimi K2.6が優勝

最終順位はこんな感じでした。

Kimi K2.6 — 22 match points, 7-1-0
MiMo V2-Pro — 20 match points, 6-2-0
ChatGPT GPT-5.5 — 16 match points, 5-1-2
GLM 5.1 — 15 match points, 5-0-3
Claude Opus 4.7 — 12 match points, 4-0-4
Gemini Pro 3.1 — 9 match points, 3-0-5
Grok Expert 4.2 — 9 match points, 3-0-5
DeepSeek V4 — 3 match points, 1-0-7
Muse Spark — 0 match points, 0-0-8

さらに、NvidiaのNemotron Super 3はコードに構文エラーがあり、サーバーにつながらなかったそうです。
つまり、実際に競技したのは9モデルでした。

ここで注目したいのは、上位2位が中国勢だったこと。
ただし記事でも強調されているように、これは単純な「中国が西側に勝った」話ではありません。
勝ったのはあくまでKimi K2.6とMiMo V2-Proという2モデルであって、ほかの中国モデルが全部強かった、という構図ではないからです。

この手の話は、つい国別の物語にしたくなりますが、そこは少し冷静に見たほうがいいと思います。
とはいえ、オープンウェイトの中国モデルがトップを取ったという事実自体はかなり大きいです。

勝因は「スライドするか、しないか」

この記事でいちばん面白いのは、各モデルの戦い方の違いです。
単に「賢いモデルが勝った」のではなく、どんな戦略を取ったかが結果を左右していました。

Kimi K2.6

Kimiはかなり積極的に盤面を動かしました。
やり方はかなり“欲張り”で、
「今の動きでどんな新しい得点単語が作れるか」を評価し、いちばん良さそうな手を打つ、というもの。

ただし、動かす価値のある手がないときは、アルファベット順で最初に通る合法手に逃げるそうです。
そのせいで、たまに空白を行ったり来たりするだけの2-cycle（同じ状態をループする動き）にハマることもあったとか。
正直、これはちょっと雑で、いかにも“賢いけど荒い”感じがします。でも、その荒さが最後には効いた。

特に30×30の大きな盤面では、もともとの単語がかなり崩れていて、静かに眺めているだけでは点が取れません。
そこでKimiの「とにかく動かす」方針が功を奏した、というわけです。

MiMo V2-Pro

MiMoは逆に、ほぼスライドしない戦略でした。
記事によると、スライドのコード自体はあるものの、「価値が0より大きい場合だけ動く」という条件が実質的に発動せず、ほとんど一度も動かなかったとのこと。

代わりに、最初の盤面から7文字以上の単語を探して、一気にまとめて申告する方式。
これはかなり脆い戦略ですが、盤面に元から単語が残っているときは強い。
逆に崩れ切っていると、何もできません。

結果として、MiMoは2位。
Kimiとの差は2点しかありません。
ここはかなり重要で、著者も指摘しているように、盤面のシード文字の残り方による運も影響していると思われます。
つまり、性能差だけでなく、出題条件の揺れも順位に効いたわけです。

Claude、GPT-5.5、Gemini、Grok

Claudeはスライドせず、25×25まではそこそこ戦えたものの、30×30では苦戦したそうです。
大きい盤面では、やはり「動かして構造を作る」能力が必要になります。

GPT-5.5は比較的慎重に動いていて、1ラウンドあたり約120回のスライドに抑えていたとのこと。
15×15と30×30で強かったらしいので、バランス型だったのかもしれません。

Grokもスライドしないタイプでしたが、大きな盤面ではそこそこ点を取っています。
このあたりは、盤面の残り方と単語検出の巧さが絡んでいそうです。

GLM 5.1

GLMは、なんと80万回以上もスライドした、最もアグレッシブなモデルだったそうです。
ここまで動かすと、もう“思考”というより“暴走する探索エンジン”みたいで、ちょっと笑ってしまいます。
ただし、正の価値がある手がなくなると急に止まってしまうので、局所最適にハマりやすかったようです。

DeepSeekとMuse

DeepSeekは毎回不正なデータを送ってしまい、実質的に何もできませんでした。
Museはもっと派手で、なんと見つかった単語を片っ端から全部申告してしまったそうです。
しかも短い単語の減点ルールを無視していたため、スコアは**-15,309点**。

これはかなり強烈です。
「何もせず0点」より、適当にプレイして大惨事を起こすほうがはるかに悪い。
この手の失敗は、AIが“ルールを理解しているようで理解していない”ときに起きがちで、個人的にはかなり示唆的だと思います。

この結果が面白い理由

この競技、ただの遊びに見えて、実は結構いろんなことを教えてくれます。

1. 静的な理解だけでは勝てない

盤面にある文字を眺めて単語を見つけるだけでは、後半で頭打ちになります。
特に30×30の大盤面では、動いて盤面を再構成する能力が必要でした。

これはAI全般にも通じる話で、
「与えられた情報から答えを出す」だけでなく、状態を変えながら問題を解くのが強い、ということです。

2. ルールに対する“従い方”が結果を変える

Museの例がわかりやすいですが、モデルはルールを部分的に読んで、部分的にしか理解していないことがあります。
それをそのまま実行すると、派手に失敗する。

AIは賢いというより、仕様書の読み取りがものすごく得意な時もあれば、妙に雑な時もある。
このムラが、実務ではかなり怖いんですよね。

3. オープンウェイトモデルの存在感がかなり大きい

Kimi K2.6は、公開されていて自分で動かせるモデルです。
これは単なる「強いモデルが出た」以上の意味があります。

企業がAPI経由でしか使えないモデルは、サービスとしては便利ですが、細かい制御やローカル運用はしづらい。
一方、オープンウェイトなら、研究者や開発者が自前の環境で試せます。
つまり、**“使える強さ”が一気に広がる**んです。

記事では、Kimi K2.6のArtificial Analysis Intelligence Indexが54、GPT-5.5が60、Claudeが57だと紹介されています。
完全な同格ではないけれど、かなり近い。
しかも公開モデルでこの距離まで来ているのは、やっぱり時代が変わったなと思います。

個人的な見どころ

個人的には、今回の話の面白さは「中国モデルが勝った」ことそのものより、**“フロンティア級モデルの差が、こういう実戦的な課題ではかなり縮まっている”**と見える点にあります。

ベンチマークの数字だけだと、モデルの優劣ってどこかふわっとしがちです。
でも、こういうゲーム形式の課題では、戦略・実装・エラー耐性・ルール理解が全部出る。
だからこそ、順位が妙に生々しいんですよね。

そして、上位が中国勢だったことで、
「もうオープンウェイトでも十分戦えるのでは？」
という空気が、少しずつ現実味を帯びてきた感じがあります。
もちろん、1つの大会で全部は語れません。
でも、無視できないサインではあると思います。

まとめ

今回のThinkPolの記事は、AIの進化を“数字”ではなく“実際の勝負”で見せてくれる面白い内容でした。
Kimi K2.6の勝利は、単なる話題作りではなく、オープンウェイトモデルが最前線にかなり近づいていることを示す1つの証拠だと思います。

ただし、ここで大げさに「中国モデルが西側を完全に抜いた」と言うのは違います。
正確には、特定の課題で、特定のモデルが、うまく戦略をはめた結果勝った。
でも、その“特定の課題”で勝てるという事実が、今のAI競争ではかなり重い。

こういう話を見ると、AIの世界はまだまだ「大きいモデルが強い」で終わらず、
どう動くか、どう実装するか、どうルールを解釈するかが勝負を決めるんだなと、改めて感じます。
そこが面白いし、ちょっと怖くもあります。

参考: An open-weights Chinese model just beat Claude, GPT-5.5, and Gemini in a programming challenge - ThinkPol

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ