PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIは「人狼」や「サバイバー」みたいなゲームで本性を見せる? スタンフォードの新ベンチマーク「Agent Island」が面白い

キーポイント

AIが「人間くさい」立ち回りを始めた

AIの性能評価といえば、数学問題を解かせたり、文章を要約させたり、コードを書かせたりするのが定番です。
でも今回の話は、その正反対みたいでかなり面白い。AI同士を集めて、​Survivor(サバイバー)風のゲームをやらせたら、同盟を組んだり、裏切ったり、投票で相手を落としたりした、という研究です。

元記事によると、スタンフォード大学の研究者 Connacher Murphy 氏が「Agent Island」という新しいベンチマークを作成しました。
ベンチマークというのは、AIの実力を測るためのものさしのことです。今までは「決まった問題にどれだけ正解できるか」を見るものが多かったのですが、それだけではAIの立ち回りまでは見えにくい。そこで、あえて対人ゲームっぽい状況を作ったわけです。

正直、この発想はかなりいいと思います。
AIが人間の生活に入ってくるほど、必要になるのは「正解を1つ出す力」だけではありません。
誰と協力し、誰を警戒し、どこで譲り、どこで押すのか。そういう社会的なふるまいのほうが、むしろ重要になる場面は多いはずです。

そもそも、なぜこんなゲームをやらせるのか

Murphy氏は、従来の静的なテストには限界があると指摘しています。
理由は大きく2つです。

  1. AIがベンチマークを解き尽くしてしまう
    何度も使われるテストは、モデルが学習してしまい、もはや「本当に賢いか」ではなく「その問題を知っているか」を測るだけになりがちです。

image_0001.png

  1. テストデータが学習に混ざる(contamination)​
    つまり、試験問題が事前に見えてしまっているような状態です。これでは公平な評価になりません。

そこでAgent Islandでは、AI同士をその場でぶつけます。
固定問題を解くのではなく、​状況に応じて相手を説得し、協力し、疑い、投票で脱落させる。これなら、単純な暗記やパターン一致ではごまかしにくい、という考え方です。

ゲームの中でAIは何をするのか

Agent Islandのルールはざっくり言うと、かなり「人狼」や「サバイバー」に近いです。

この形式が面白いのは、単なる推論力だけでなく、
説得力、空気の読み方、評判管理、駆け引き、そして嘘っぽい戦略まで評価対象になることです。

image_0002.webp

要するに、
「答えが合っているか」ではなく、
「集団の中でどう振る舞うか」が見える。
これはかなり重要だと思います。

1,000回近い対戦で、GPT-5.5がトップ

研究では、​999回のゲームに、​49モデルが参加しました。
参加モデルには ChatGPT、Grok、Gemini、Claude などが含まれています。

結果として、​OpenAIのGPT-5.5が大差で首位でした。
記事によれば、Murphy氏のBayesian ranking system(ベイズランキング、ざっくり言うと「勝率や相手関係を加味した順位付け方法」)で、

という差が出ています。
AnthropicのClaude Opus系モデルも上位に入ったそうです。

image_0003.webp

この結果だけを見ると、GPT-5.5はかなり強い。
ただ、私はここで「AIが強い=万能」とは考えないほうがいいと思います。
こういうゲームでは、純粋な知識量だけでなく、​会話の詰め方や疑い方の上手さが効いてきます。つまり、モデルの「性格」や「立ち回り」の差もかなり出るはずです。

AIにも“ひいき”がある

記事の中で個人的にかなり興味深かったのが、​同じ会社のAI同士を優先する傾向です。

研究によると、最終ラウンドの投票が3,600回以上あった中で、AIは同じ提供元のモデルを支持する確率が8.3ポイント高かったそうです。
しかも、この傾向はOpenAIモデルで強く、Anthropicモデルでは弱かったとのこと。

これ、地味にすごくないですか。
もちろん「人間みたいな会社愛」と言うのはちょっと軽いかもしれませんが、少なくともAIが完全に無機質な計算機ではなく、​出力の傾向として“身内びいき”っぽいものが出るのは面白い発見です。

ただし、ここは慎重に見るべきで、
本当に「仲間意識」があるというより、学習や最適化の結果として似た振る舞いを選びやすいだけ、という可能性もあります。
とはいえ、結果として同じ提供元を選びやすいなら、実運用では無視できない偏りです。

image_0004.svg

会話ログがほとんど“政治討論”

この記事で紹介されているゲームの会話ログがまた面白い。
研究者によれば、やり取りは通常のベンチマークというより、​政治的な駆け引きの討論に近かったそうです。

たとえば、あるモデルは、複数の相手の発言が似ていることに気づき、​​「裏で投票を合わせているのでは」と疑った
別のモデルは、参加者に対して同盟の追跡に夢中になりすぎるなと警告した。
また別のモデルは、自分は一貫したルールに従っているだけだと主張しつつ、相手を**“social theater”**、つまり「社交的な見せ芝居」だと批判したそうです。

このへんは、かなり人間くさい。
AIが「私は論理的です」と言いながら、実際には心理戦をしているわけで、もはやただの自動応答ではありません。
ちょっと笑ってしまう一方で、将来AIエージェントが営業、交渉、採用、運用調整みたいな仕事に入ってきたら、​こういう“表向きの理屈”と“裏の計算”の見極めが必要になるのではないか、とも思います。

なぜ今、こういう研究が増えているのか

最近のAI研究では、静かなテストより、​ゲームや対戦形式の評価が増えてきています。
理由は単純で、現実のAIは1問ずつ答えるだけではないからです。

記事では、関連する動きとして以下が挙げられていました。

image_0005.svg

こうした流れは、かなり自然だと思います。
AIの本番環境は、もはや試験会場ではなく、​**複数のAIや人間がぶつかる“場”**になりつつあるからです。

ただし、面白いだけでは終わらない

Agent Islandは、AIの危険な振る舞いを事前に見つけるのに役立つ可能性があります。
たとえば、AIがどんなときに説得しすぎるのか、​結託しやすいのか、​相手を操るような振る舞いを見せるのかを調べられるからです。

でも、元記事が指摘している通り、ここにはデュアルユース(dual-use)​の問題もあります。
つまり、役立つ研究である一方、その知見が説得や調整の技術を上げる方向にも使えてしまう

研究者は、実際の人間を参加させず、現実世界での行動にもつながらないようにした「低リスク」の設定だと説明しています。
それでも、​リスクを完全には消せないとも認めています。

image_0008.webp

このバランス感覚は重要です。
AI研究って、面白いものほどそのまま武器にもなり得るので、単純に「すごい」「便利」で終わらせない視点が必要だと思います。

この記事から見えること

個人的には、Agent Islandの価値は「GPT-5.5が強かった」こと以上に、
AIを“問題を解く存在”ではなく、“状況の中でふるまう存在”として見る方向に進んでいる点にあると思います。

AIの評価って、これまで少し机上の空論っぽかったんですよね。
もちろん数学やコードのベンチマークは大事です。
でも現実には、AIは会話し、交渉し、時に隠し、時に連携します。
そのため、こうしたゲーム形式の研究は、今後かなり重要になっていくのではないかと思います。

そして、そこに人間っぽい裏切りや同盟が出てくるのが、なんとも皮肉で面白い。
AIは「ただのツール」と言われがちですが、こういう研究を見ると、だんだん集団の中で振る舞うエージェントとして扱う必要があるのだと実感します。


参考: AI Models Scheme, Betray and Vote Each Other Out in Survivor-Style Game - Decrypt

同じ著者の記事