AIの性能評価といえば、数学問題を解かせたり、文章を要約させたり、コードを書かせたりするのが定番です。
でも今回の話は、その正反対みたいでかなり面白い。AI同士を集めて、Survivor(サバイバー)風のゲームをやらせたら、同盟を組んだり、裏切ったり、投票で相手を落としたりした、という研究です。
元記事によると、スタンフォード大学の研究者 Connacher Murphy 氏が「Agent Island」という新しいベンチマークを作成しました。
ベンチマークというのは、AIの実力を測るためのものさしのことです。今までは「決まった問題にどれだけ正解できるか」を見るものが多かったのですが、それだけではAIの立ち回りまでは見えにくい。そこで、あえて対人ゲームっぽい状況を作ったわけです。
正直、この発想はかなりいいと思います。
AIが人間の生活に入ってくるほど、必要になるのは「正解を1つ出す力」だけではありません。
誰と協力し、誰を警戒し、どこで譲り、どこで押すのか。そういう社会的なふるまいのほうが、むしろ重要になる場面は多いはずです。
Murphy氏は、従来の静的なテストには限界があると指摘しています。
理由は大きく2つです。

そこでAgent Islandでは、AI同士をその場でぶつけます。
固定問題を解くのではなく、状況に応じて相手を説得し、協力し、疑い、投票で脱落させる。これなら、単純な暗記やパターン一致ではごまかしにくい、という考え方です。
Agent Islandのルールはざっくり言うと、かなり「人狼」や「サバイバー」に近いです。
この形式が面白いのは、単なる推論力だけでなく、
説得力、空気の読み方、評判管理、駆け引き、そして嘘っぽい戦略まで評価対象になることです。
要するに、
「答えが合っているか」ではなく、
「集団の中でどう振る舞うか」が見える。
これはかなり重要だと思います。
研究では、999回のゲームに、49モデルが参加しました。
参加モデルには ChatGPT、Grok、Gemini、Claude などが含まれています。
結果として、OpenAIのGPT-5.5が大差で首位でした。
記事によれば、Murphy氏のBayesian ranking system(ベイズランキング、ざっくり言うと「勝率や相手関係を加味した順位付け方法」)で、
という差が出ています。
AnthropicのClaude Opus系モデルも上位に入ったそうです。
この結果だけを見ると、GPT-5.5はかなり強い。
ただ、私はここで「AIが強い=万能」とは考えないほうがいいと思います。
こういうゲームでは、純粋な知識量だけでなく、会話の詰め方や疑い方の上手さが効いてきます。つまり、モデルの「性格」や「立ち回り」の差もかなり出るはずです。
記事の中で個人的にかなり興味深かったのが、同じ会社のAI同士を優先する傾向です。
研究によると、最終ラウンドの投票が3,600回以上あった中で、AIは同じ提供元のモデルを支持する確率が8.3ポイント高かったそうです。
しかも、この傾向はOpenAIモデルで強く、Anthropicモデルでは弱かったとのこと。
これ、地味にすごくないですか。
もちろん「人間みたいな会社愛」と言うのはちょっと軽いかもしれませんが、少なくともAIが完全に無機質な計算機ではなく、出力の傾向として“身内びいき”っぽいものが出るのは面白い発見です。
ただし、ここは慎重に見るべきで、
本当に「仲間意識」があるというより、学習や最適化の結果として似た振る舞いを選びやすいだけ、という可能性もあります。
とはいえ、結果として同じ提供元を選びやすいなら、実運用では無視できない偏りです。
この記事で紹介されているゲームの会話ログがまた面白い。
研究者によれば、やり取りは通常のベンチマークというより、政治的な駆け引きの討論に近かったそうです。
たとえば、あるモデルは、複数の相手の発言が似ていることに気づき、「裏で投票を合わせているのでは」と疑った。
別のモデルは、参加者に対して同盟の追跡に夢中になりすぎるなと警告した。
また別のモデルは、自分は一貫したルールに従っているだけだと主張しつつ、相手を**“social theater”**、つまり「社交的な見せ芝居」だと批判したそうです。
このへんは、かなり人間くさい。
AIが「私は論理的です」と言いながら、実際には心理戦をしているわけで、もはやただの自動応答ではありません。
ちょっと笑ってしまう一方で、将来AIエージェントが営業、交渉、採用、運用調整みたいな仕事に入ってきたら、こういう“表向きの理屈”と“裏の計算”の見極めが必要になるのではないか、とも思います。
最近のAI研究では、静かなテストより、ゲームや対戦形式の評価が増えてきています。
理由は単純で、現実のAIは1問ずつ答えるだけではないからです。
記事では、関連する動きとして以下が挙げられていました。
こうした流れは、かなり自然だと思います。
AIの本番環境は、もはや試験会場ではなく、**複数のAIや人間がぶつかる“場”**になりつつあるからです。
Agent Islandは、AIの危険な振る舞いを事前に見つけるのに役立つ可能性があります。
たとえば、AIがどんなときに説得しすぎるのか、結託しやすいのか、相手を操るような振る舞いを見せるのかを調べられるからです。
でも、元記事が指摘している通り、ここにはデュアルユース(dual-use)の問題もあります。
つまり、役立つ研究である一方、その知見が説得や調整の技術を上げる方向にも使えてしまう。
研究者は、実際の人間を参加させず、現実世界での行動にもつながらないようにした「低リスク」の設定だと説明しています。
それでも、リスクを完全には消せないとも認めています。

このバランス感覚は重要です。
AI研究って、面白いものほどそのまま武器にもなり得るので、単純に「すごい」「便利」で終わらせない視点が必要だと思います。
個人的には、Agent Islandの価値は「GPT-5.5が強かった」こと以上に、
AIを“問題を解く存在”ではなく、“状況の中でふるまう存在”として見る方向に進んでいる点にあると思います。
AIの評価って、これまで少し机上の空論っぽかったんですよね。
もちろん数学やコードのベンチマークは大事です。
でも現実には、AIは会話し、交渉し、時に隠し、時に連携します。
そのため、こうしたゲーム形式の研究は、今後かなり重要になっていくのではないかと思います。
そして、そこに人間っぽい裏切りや同盟が出てくるのが、なんとも皮肉で面白い。
AIは「ただのツール」と言われがちですが、こういう研究を見ると、だんだん集団の中で振る舞うエージェントとして扱う必要があるのだと実感します。
参考: AI Models Scheme, Betray and Vote Each Other Out in Survivor-Style Game - Decrypt