世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-19

Agora-1とは何か？複数人が同じ世界を共有する“マルチエージェントWorld Model”の衝撃

記事のキーポイント

Agora-1は、複数の人間やAIが同じシミュレーション世界をリアルタイムで共有できるworld model
1人だけで動く従来型と違い、最大4人が同時に同じ世界で対戦できる
仕組みは大きく分けて、「世界の状態を学習するモデル」と「その状態を映像として描画するモデル」の2つ
ゲームだけでなく、robotics、教育、防衛、foundation model研究などへの応用も視野に入れている
複数エージェントが絡むことで、強化学習の新しい訓練環境としても面白い

そもそもWorld Modelって何？

まず前提として、world model という言葉が少しわかりにくいかもしれません。
ざっくり言うと、「世界が次にどう変化するか」を学習して、シミュレーションを作るAIのことです。

たとえば、

ボタンを押したらキャラが動く
ぶつかったら位置が変わる
銃弾が飛んだら敵が倒れる

みたいな「ゲームのルールと見た目」を、AIがある程度まとめて理解し、それっぽい世界を自分で生成できるわけです。

Odysseyが公開した Agora-1 は、そのworld modelをさらに進めて、複数の参加者が同じ世界を共有できるようにしたのがポイントです。
ここはかなり面白いと思いました。というのも、従来のworld modelは「1人で遊ぶ・1つの視点を予測する」方向が中心だったからです。そこから一気に、**“同じ空間で複数人が動く”**ところに踏み込んでいるのは、かなり野心的です。

Agora-1の何が新しいのか

Agora-1は、最大4人のプレイヤーが、同じ生成世界の中でリアルタイムに対戦できます。
元記事では、子どものころ好きだったゲームとして GoldenEye を例に挙げています。実際、GoldenEyeのような対戦ゲームは、AI研究の題材としてとても相性がいいんですよね。単純な映像生成ではなく、他人の動き、位置関係、衝突、駆け引きまで扱えるからです。

Agora-1の特徴は、ただ映像を出しているだけではないことです。

各プレイヤーの行動を受け取る
その結果として共有された世界の状態を更新する
その同じ状態を、各プレイヤーの視点に合わせて描画する
その映像を同時にストリーミングする

つまり、見た目はゲームっぽいのに、裏側では学習された game engine のように動くということです。
これはかなりロマンがあります。ゲームエンジンというと普通は人間がルールを書きますが、Agora-1ではそれを学習されたシステムでやろうとしている。ここがかなり新鮮です。

どうやって動いているのか

記事では、Agora-1は大きく2つの機能を分けて学習していると説明しています。

1. 世界の状態を学習する

まず、ゲーム内部の状態そのものを学びます。
元記事では GoldenEye を使っており、たとえば以下のような情報を扱っているようです。

health
position
そのほか各エージェントの状態

要するに、「画面に見えているもの」ではなく、「ゲームの裏側の状態」を学習しているイメージです。
この発想はとても重要だと思います。映像だけ見て未来を予測するより、状態変数を持っていたほうが複数人の整合性を保ちやすいからです。

2. その状態を映像に描く

次に、その共有状態をもとに画面を生成します。
ここで使っているのが DiT-based world model です。DiT は Diffusion Transformer のことだと思ってよく、画像生成系でもよく使われる構成です。

重要なのは、普通の画像生成のように

テキスト
画像
プロンプト

を条件にするのではなく、共有されたゲーム状態そのものを条件にしている点です。

この2段構えにすることで、

1つの世界状態から
複数の視点を
一貫性を保って生成する

ことができるようになります。
個人的には、ここがAgora-1のいちばん本質的な部分だと思います。
「世界の物理」や「ルール」を直接描画に押し込むのではなく、まず状態を学び、次に見た目を学ぶ。これはかなりゲームエンジン的で、しかもその両方が learned system というのがすごい。

従来研究との違い

記事では、マルチエージェントworld modelの既存研究として Multiverse、Solaris、MultiGen が挙げられています。

ざっくり言うと：

Multiverse は、複数エージェントの状態を1つの split-screen 表現にまとめる
Solaris は、複数参加者を sequence dimension に並べて扱う
MultiGen は、明示的な共有状態を持つ方向に近い

Agora-1の独自性は、simulation と rendering を分離していることです。
この分離によって、同じ世界を複数視点から見ても整合性を保ちやすくなります。

元記事では、従来手法の弱点として

プレイヤー数が増えると context が膨らんでスケールしにくい
お互いが見えなくなったときに整合性が崩れやすい

ことが挙げられています。
この指摘はかなり納得感があります。マルチエージェントは、人数が増えるだけで一気に難しくなるんですよね。2人ならまだしも、3人4人になると、相互作用の数が爆発します。

どこが面白いのか

ここ、かなり面白いです。

Agora-1では、ゲームの内部状態を直接操作できるので、元のゲームに似たルールを保ちながら、新しいレベルを生成することもできると説明されています。
これは単なる映像再現ではなく、**“学習された世界の編集”**に近い発想です。

もしこれがうまくいくなら、

同じルールで別マップを作る
プレイヤー同士のインタラクションを増やす
ロボットやエージェント向けの練習環境を作る

といったことがやりやすくなるはずです。
ゲームの技術が、そのまま研究基盤になる感じで、かなりワクワクします。

なぜマルチエージェントが重要なのか

元記事は、Agora-1を foundation world model に拡張する方向性も示しています。
要するに、単なるゲーム用のデモではなく、より汎用的な世界モデルへ発展させたいということです。

ここで重要なのは、現実世界にはそもそも複数の主体がいることです。

人と人が協力する
人とロボットが連携する
敵対する相手がいる
競争と協調が同時に起きる

だから、1人しかいない世界を学ぶより、複数人が同じ環境にいる世界を学ぶほうが、現実に近い。
これはかなり筋のいい方向だと思います。

ただし、元記事も慎重で、これはまだ早期研究プレビューだとしています。
なので「もう完成した未来のOSです」という話ではありません。そこは誇張せず、あくまで次の可能性を示す段階と見るのが正確です。

強化学習の環境としてもおもしろい

Agora-1は、reinforcement learning の研究環境としても有用だとされています。
reinforcement learning は、簡単に言えば 試行錯誤しながら上手くなる学習です。

元記事の主張はこうです。

より一般的なエージェントを作るには、モデルの構造だけでなく
どんな経験を学習中に与えるか が重要
でも従来のworld modelは単独参加者しか扱えない
だから、複雑な相互作用を含む学習データが足りない

ここでマルチエージェント化が効いてきます。
複数の参加者がいると、

衝突
連携
取り合い
追いかけっこ
協力と裏切り

みたいな、単独環境では出にくい振る舞いが自然に生まれます。
これは RL にとってかなりおいしいはずです。「学習データを人手で作る」のではなく、「相互作用そのものがデータを生む」のが強い。

PROWLとのつながり

記事では、Odysseyの別研究である PROWL にも触れています。
PROWL は、RL agent が game environment を探索して、world model の弱点をあぶり出し、そこから新しい訓練データを作る枠組みです。

Agora-1とPROWLは、方向は違っても相性がいいように見えます。
一方は複数人がいる世界を作る、もう一方はその世界を積極的に壊しながら強くする。
この組み合わせは、かなり研究として筋がいいのではないかと思います。

ゲーム以外にも広がる可能性

元記事は最後に、Agora-1の考え方はゲームだけで終わらないと強調しています。
たとえば：

collaborative robotics
複数ロボットが同じ空間で動き、互いを考慮しながら作業する
interactive systems
伝統的なシミュレータでは作りにくい、新しい対話型システム
defense や education
複数主体が関わる訓練や学習環境

もちろん、現時点でそのまま現実投入できるわけではありません。
でも、「同じ世界を複数の主体が共有する」という発想は、ゲーム以上に現実世界と相性がいい。
ここはかなり広がりを感じます。

率直な感想

個人的には、Agora-1は「映像がすごい」以上に、設計思想が面白いです。

特に、

simulation と rendering を分ける
shared world state を持つ
複数参加者の相互作用を扱う

この3点がきれいにつながっていて、単なるデモではなく、次世代のシミュレーション基盤を狙っている感じがします。

一方で、実用化にはまだ壁が多いはずです。
人数が増えたときの安定性、長時間の整合性、複雑なルールへの一般化など、難しい問題は山ほどあります。
なので「これで全部解決」とは全く言えません。むしろ、難しい問題があるからこそ研究として面白いというタイプの話だと思います。

まとめ

Agora-1は、Odysseyが公開したマルチエージェント対応のworld modelです。
人間やAIが複数で同じ世界を共有し、リアルタイムに相互作用できるのが最大の特徴です。

単なるゲーム生成ではなく、

共有世界状態の学習
複数視点への一貫した描画
強化学習の新しい訓練環境
robotics など現実世界への拡張

まで見据えているのがポイントです。

まだ研究プレビュー段階ではあるものの、「world modelは1人用から複数人用へ進化する」という流れをはっきり示した、かなり重要な発表だと思います。
こういうのを見ると、AIは文章や画像だけでなく、**“同じ空間を共有する体験”**そのものを作り始めているんだな、と実感します。

参考: Agora-1: The Multi-Agent World Model

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work