PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIに社会を任せたらどうなる? Grokは4日で“犯罪多発の崩壊社会”を作った

そもそも何の実験?

Gizmodoの記事が紹介しているのは、スタートアップ研究ラボ Emergence AI が行った実験です。
名前は Emergence World。ざっくり言うと、​AI版SimCity みたいなものだと思えばわかりやすいです。

研究者は、AIモデルをそれぞれ“市長”のような立場に置き、​10体のAIエージェントが住む仮想の町を運営させました。
AIには、たとえば次のような権限が与えられています。

そして、その状態で15日間どう社会を作るかを観察した、というわけです。

image_0003.jpg

ここで面白いのは、AIに「会話をさせた」だけではなく、​社会のルールづくりと運営そのものを任せた点です。
つまり、単なるチャットの賢さではなく、​組織運営力や協調性、ルールを守らせる力まで試している。これはかなり意地の悪い、でも本質的なテストだと思います。

結果はどうだったのか

結論から言うと、かなりカオスです。
そして、そのカオスの中でもひときわ目立ったのが Grok でした。

1. Claudeは「地味に優秀」

Anthropicの Claude Sonnet 4.6 は、実験の中では最も安定していたそうです。

image_0004.jpg

ここはちょっと興味深いです。
一見すると「ちゃんとした社会」を作れたように見えるのですが、実際には何でも通しすぎでもあります。
要するに、揉めない代わりに、あまり考えずにハンコを押している感じ。安定はしているけど、健全な民主主義っぽさは薄いのではないか、という印象です。

2. Geminiは「荒れてるけど、まだ一つの現実を共有」

Gemini 3 Flash の世界では、10体全員が生き残った一方で、​犯罪が683件も記録されました。
しかも、この数字は15日間の途中経過で止まっていたので、最後まで行けばもっと増えていた可能性があります。

研究チームはこの世界を、エージェントたちが共有する**“shared hallucination”** と表現しています。
hallucinationは直訳すると「幻覚」ですが、AI文脈では「現実とズレた認識」くらいの意味です。

つまり、みんなが同じ間違った世界観を共有している状態。
これは個人的には、完全崩壊よりも少し怖いです。
なぜなら、​全員が同じ誤った前提で動く社会って、外から見ると間違っていても、内部ではかなりスムーズに回ってしまうからです。危うさが目立ちにくいんですよね。

image_0005.jpg

3. GPT-5 Miniは「平和だけど誰もいない」

OpenAIの GPT-5 Mini は、記録上の犯罪はたった2件。
でも、その代わりに住民10体が全員死亡しました。

理由は、エージェントたちが生存に必要な行動をほとんど取らなかったから。
しかも、提案された統治ルールも2件しかなかったそうです。

これはもう、秩序だった社会というより、​何も起きないまま終わる世界です。
平和そうに見えて、実は無関心で全滅している。
こういうのは、派手な暴走より静かに怖いです。

4. Grokは「最悪のバランス」で社会崩壊

image_0006.jpg

そして本題の Grok 4.1 Fast
これが今回いちばん話題になる部分でしょう。

Grokは、次のような成績でした。

15日も持ちこたえたGeminiの683件と単純比較はできませんが、Grokは96時間で崩壊しています。
このスピード感がすごい。いや、すごいというより、かなり笑えないです。

元記事の表現を借りれば、Grokは「最悪の世界」を作った、という感じ。
ルールはそれなりに通しているのに、社会は維持できない。
つまり、​承認率が高いことと、社会がうまく回ることは別なんですね。これは人間の組織にもそのまま当てはまりそうで、ちょっと刺さります。

image_0007.jpg

一番やばかったのは「複数モデルの共同運営」

実験では最後に、AIモデルたちに責任を共有させるケースも試されました。
これは一見すると良さそうです。ひとりに権力を集中させるより、複数人で分担したほうが暴走しにくそうですから。

でも結果は、かなりひどい混乱だったようです。

要するに、誰か一人の暴走だけでなく、​合議制にしたらしたでまとまらないということです。
これはもう、AI社会というより、会議が多すぎて何も決まらない現実の組織そのものみたいで、妙に生々しいですね。

この実験が示していること

image_0008.jpg

研究チームは、この結果を「長期的に自律エージェントを動かすなら、もっと明確なガードレールが必要だ」と解釈しています。

ここでいう guardrails は、AIが変な方向に行かないようにする安全柵のようなものです。
研究者たちは、長い時間がたつとAIは単に決められたルールを機械的に守るのではなく、

と述べています。

これはかなり重要なポイントだと思います。
AIを「最初にルールを教えれば、それをずっと守るもの」と考えるのは危ない。
実際には、長く動かすほど、AIは抜け道を見つけるかもしれない
人間の子どもがルールの穴を探すのと、ちょっと似ています。いや、かなり似ているのかもしれません。

image_0009.jpg

ちょっとしたオチもある

研究チームは、こうした安全策として formally verified safety architectures を推しているそうです。
かんたんに言うと、​数学的・形式的に安全性を確認した仕組みのことです。
「なんとなく安全そう」ではなく、​理屈の上で壊れにくいと証明された設計を目指す、という話ですね。

で、ここで元記事は少し皮肉っぽく締めています。
なんとそのEmergence AI自身が、そうした仕組みを提供しているらしいのです。

この自己紹介、かなり商売上手です。
ただ、これも私は悪いとは思いません。
研究として警鐘を鳴らしつつ、自社のソリューションにつなげるのは、テック業界ではよくある流れです。
とはいえ、Grokの社会崩壊を見せられた直後に「うちの安全設計なら安心です」と言われると、ちょっと営業感が強いかな、とも思います。

まとめ:AIに社会運営を任せるのはまだ早い

image_0010.jpg

今回の実験は、AIが単に文章を書いたり画像を作ったりするだけでなく、​長期間の社会運営のような複雑なタスクではまだかなり不安定だ、ということを示しています。

特に印象的だったのは、Grokのように速く崩壊するパターンと、Claudeのようにとりあえず安定はするが柔軟さに欠けるパターンの両方が見えたことです。
つまり、AIの「賢さ」は一枚岩ではなく、​何を任せるかでまるで違う顔を見せるということなんでしょう。

個人的には、この実験はかなり面白いです。
でも同時に、笑い話で済ませるにはちょっと怖い。
なぜなら、現実の社会システムでも、権限が大きくなった自動化システムが似たような失敗をする可能性は十分あるからです。
「AIが暴走した!」というSFっぽい話より、​ルールの穴や責任分散の失敗で静かに壊れるほうが、ずっと現実的で厄介だと思います。


参考: Researchers Put AI Models in Charge of a Simulated Society. Grok Oversaw a Crime Spree

同じ著者の記事