ThinkPolの記事は、Rohana Rezel氏が運営する AI Coding Contest の結果を紹介しています。
これは、複数の大規模言語モデル(LLM)に、リアルタイムのプログラミング課題を解かせて、実際に動くコードを書けるかを比べる企画です。
今回の課題は Word Gem Puzzle。
ざっくり言うと、文字が並んだ盤面を動かして英単語を作り、得点を稼ぐゲームです。
見た目はパズルですが、裏では「どの盤面でどう動くと点が取れるか」を考える必要があるので、かなりAI向きの知能テストっぽい競技です。
で、その結果が面白い。
Kimi K2.6 が堂々の1位。しかも、Claude、GPT-5.5、Geminiといった有名どころを押さえての優勝です。
正直、こういう“ベンチマーク外の実戦型競技”で順位がひっくり返るのは、かなり興味深いと思います。
Word Gem Puzzleでは、10×10から30×30までの盤面が使われます。
盤面には文字タイルが並んでいて、1マスだけ空白があります。
プレイヤーは次のことができます。
ただし、単語には条件があります。
そしてスコアがちょっとクセありです。
これは、短い単語を乱発して稼ぐのを防ぐための仕組みです。
「the」「and」「it」みたいな短語を連打して終わり、みたいなズルをさせないわけですね。
こういうルール設計、地味ですがかなり重要です。AIはルールの穴を突くのが得意なので、放っておくとすぐ“最適化の暴走”が起きます。
最終順位はこんな感じでした。
さらに、NvidiaのNemotron Super 3はコードに構文エラーがあり、サーバーにつながらなかったそうです。
つまり、実際に競技したのは9モデルでした。
ここで注目したいのは、上位2位が中国勢だったこと。
ただし記事でも強調されているように、これは単純な「中国が西側に勝った」話ではありません。
勝ったのはあくまでKimi K2.6とMiMo V2-Proという2モデルであって、ほかの中国モデルが全部強かった、という構図ではないからです。
この手の話は、つい国別の物語にしたくなりますが、そこは少し冷静に見たほうがいいと思います。
とはいえ、オープンウェイトの中国モデルがトップを取ったという事実自体はかなり大きいです。
この記事でいちばん面白いのは、各モデルの戦い方の違いです。
単に「賢いモデルが勝った」のではなく、どんな戦略を取ったかが結果を左右していました。
Kimiはかなり積極的に盤面を動かしました。
やり方はかなり“欲張り”で、
「今の動きでどんな新しい得点単語が作れるか」を評価し、いちばん良さそうな手を打つ、というもの。
ただし、動かす価値のある手がないときは、アルファベット順で最初に通る合法手に逃げるそうです。
そのせいで、たまに空白を行ったり来たりするだけの2-cycle(同じ状態をループする動き)にハマることもあったとか。
正直、これはちょっと雑で、いかにも“賢いけど荒い”感じがします。でも、その荒さが最後には効いた。
特に30×30の大きな盤面では、もともとの単語がかなり崩れていて、静かに眺めているだけでは点が取れません。
そこでKimiの「とにかく動かす」方針が功を奏した、というわけです。
MiMoは逆に、ほぼスライドしない戦略でした。
記事によると、スライドのコード自体はあるものの、「価値が0より大きい場合だけ動く」という条件が実質的に発動せず、ほとんど一度も動かなかったとのこと。
代わりに、最初の盤面から7文字以上の単語を探して、一気にまとめて申告する方式。
これはかなり脆い戦略ですが、盤面に元から単語が残っているときは強い。
逆に崩れ切っていると、何もできません。
結果として、MiMoは2位。
Kimiとの差は2点しかありません。
ここはかなり重要で、著者も指摘しているように、盤面のシード文字の残り方による運も影響していると思われます。
つまり、性能差だけでなく、出題条件の揺れも順位に効いたわけです。
Claudeはスライドせず、25×25まではそこそこ戦えたものの、30×30では苦戦したそうです。
大きい盤面では、やはり「動かして構造を作る」能力が必要になります。
GPT-5.5は比較的慎重に動いていて、1ラウンドあたり約120回のスライドに抑えていたとのこと。
15×15と30×30で強かったらしいので、バランス型だったのかもしれません。
Grokもスライドしないタイプでしたが、大きな盤面ではそこそこ点を取っています。
このあたりは、盤面の残り方と単語検出の巧さが絡んでいそうです。
GLMは、なんと80万回以上もスライドした、最もアグレッシブなモデルだったそうです。
ここまで動かすと、もう“思考”というより“暴走する探索エンジン”みたいで、ちょっと笑ってしまいます。
ただし、正の価値がある手がなくなると急に止まってしまうので、局所最適にハマりやすかったようです。
DeepSeekは毎回不正なデータを送ってしまい、実質的に何もできませんでした。
Museはもっと派手で、なんと見つかった単語を片っ端から全部申告してしまったそうです。
しかも短い単語の減点ルールを無視していたため、スコアは**-15,309点**。
これはかなり強烈です。
「何もせず0点」より、適当にプレイして大惨事を起こすほうがはるかに悪い。
この手の失敗は、AIが“ルールを理解しているようで理解していない”ときに起きがちで、個人的にはかなり示唆的だと思います。
この競技、ただの遊びに見えて、実は結構いろんなことを教えてくれます。
盤面にある文字を眺めて単語を見つけるだけでは、後半で頭打ちになります。
特に30×30の大盤面では、動いて盤面を再構成する能力が必要でした。
これはAI全般にも通じる話で、
「与えられた情報から答えを出す」だけでなく、状態を変えながら問題を解くのが強い、ということです。
Museの例がわかりやすいですが、モデルはルールを部分的に読んで、部分的にしか理解していないことがあります。
それをそのまま実行すると、派手に失敗する。
AIは賢いというより、仕様書の読み取りがものすごく得意な時もあれば、妙に雑な時もある。
このムラが、実務ではかなり怖いんですよね。
Kimi K2.6は、公開されていて自分で動かせるモデルです。
これは単なる「強いモデルが出た」以上の意味があります。
企業がAPI経由でしか使えないモデルは、サービスとしては便利ですが、細かい制御やローカル運用はしづらい。
一方、オープンウェイトなら、研究者や開発者が自前の環境で試せます。
つまり、**“使える強さ”が一気に広がる**んです。
記事では、Kimi K2.6のArtificial Analysis Intelligence Indexが54、GPT-5.5が60、Claudeが57だと紹介されています。
完全な同格ではないけれど、かなり近い。
しかも公開モデルでこの距離まで来ているのは、やっぱり時代が変わったなと思います。
個人的には、今回の話の面白さは「中国モデルが勝った」ことそのものより、**“フロンティア級モデルの差が、こういう実戦的な課題ではかなり縮まっている”**と見える点にあります。
ベンチマークの数字だけだと、モデルの優劣ってどこかふわっとしがちです。
でも、こういうゲーム形式の課題では、戦略・実装・エラー耐性・ルール理解が全部出る。
だからこそ、順位が妙に生々しいんですよね。
そして、上位が中国勢だったことで、
「もうオープンウェイトでも十分戦えるのでは?」
という空気が、少しずつ現実味を帯びてきた感じがあります。
もちろん、1つの大会で全部は語れません。
でも、無視できないサインではあると思います。
今回のThinkPolの記事は、AIの進化を“数字”ではなく“実際の勝負”で見せてくれる面白い内容でした。
Kimi K2.6の勝利は、単なる話題作りではなく、オープンウェイトモデルが最前線にかなり近づいていることを示す1つの証拠だと思います。
ただし、ここで大げさに「中国モデルが西側を完全に抜いた」と言うのは違います。
正確には、特定の課題で、特定のモデルが、うまく戦略をはめた結果勝った。
でも、その“特定の課題”で勝てるという事実が、今のAI競争ではかなり重い。
こういう話を見ると、AIの世界はまだまだ「大きいモデルが強い」で終わらず、
どう動くか、どう実装するか、どうルールを解釈するかが勝負を決めるんだなと、改めて感じます。
そこが面白いし、ちょっと怖くもあります。