世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

マルチエージェント開発は「分散システム問題」だ——AGIでも消せない協調のむずかしさ

記事のキーポイント

複数のAIエージェントでソフトウェアを作ると、実は「分散システム」の問題になる
ユーザーの自然言語プロンプトはあいまいなので、複数の解釈が生まれる
その結果、各エージェントは“同じ解釈”に向かって協調しないといけない
これは見方を変えると「分散合意（distributed consensus）」そのもの
著者は、モデルがもっと賢くなっても協調問題は消えない、と主張する
FLP定理やByzantine Generals Problemなど、分散システムの不可能性結果が関係してくる
つまり、「AGIが来れば全部解決」は楽観的すぎる、というのがこの記事の芯

この記事は何を言っているのか

Kiran Gopinathan氏の記事は、かなり刺激的です。主張を一言でまとめるなら、

マルチエージェントによるソフトウェア開発は、結局“分散システム”の問題であり、モデルが賢くなっても協調の難しさは消えない

という話です。

最近は、複数のLLMエージェントに役割分担させて、仕様策定、実装、レビュー、統合までやらせよう、という流れが強いですよね。たしかに夢があります。人間のチーム開発っぽく見えるし、うまく回れば速そうです。

でも著者は、ここにかなり本質的な落とし穴があると言います。
それは「各エージェントが何を作るべきか」を正しく一致させるのが難しい、という点です。

そしてこの難しさは、単なる“AIの知能不足”ではなく、複数の主体が同時に協力して1つの成果物を作るときに必ず出てくる、分散システム固有の問題だ、というのがこの文章の核です。

正直、これはかなり面白い見方だと思います。
AI界隈では「モデルがもっと賢くなれば解決」と言いたくなりがちですが、著者はそこに冷や水を浴びせています。しかも、ただの感想ではなく、分散システム理論を引っ張ってきて理屈を立てているのがいい。

まず前提：自然言語の指示はあいまい

記事では、たとえば「レシピ管理アプリを作って」といったプロンプトを例にします。

この指示は、当然ながらいろいろに解釈できます。

料理名で検索できればいいのか
食材の在庫管理も必要なのか
SNS共有が欲しいのか
モバイル対応なのか
家族で共有するのか、個人利用なのか

つまり、自然言語のプロンプトは仕様書ほど厳密ではないわけです。
ここでのポイントは、LLMにとって「正解」が1つではないこと。

著者はこれを、ある種の集合として表現します。
簡単に言えば、プロンプトPに対して「この条件を満たすソフトウェア候補の集まり」がある、という考え方です。

この時点で、もう“選択”が必要になります。
どの方向に寄せるか、どの設計を採るか、どの機能を優先するか。
ここがAIの知能だけでは埋まらない部分です。

複数エージェントになると、問題はさらにややこしい

単一のLLMに「全部やって」と頼むなら、まだ話は単純です。
しかし、複数のエージェントに役割分担させると話が変わります。

たとえば、

あるエージェントがネットワーク層を担当
別のエージェントがUIを担当
さらに別のエージェントが統合やテストを担当

みたいな構成です。

すると、各エージェントはそれぞれの部分を作りながら、全体として同じ設計方針に揃えないといけない。
ここでズレると、簡単に破綻します。

たとえばネットワーク担当が callback-style の async API を選んだのに、統合担当が別の前提で組み立てていたら、あとで地獄を見るわけです。
これは開発現場ではあるあるですが、AIエージェントが相手でもまったく同じです。

著者はこれを、分散合意（distributed consensus）問題と見なします。

これはつまり、「複数の参加者が、通信しながら、最終的に同じ判断にたどり着く」問題です。
人間のチームでも難しいのに、LLMエージェントでも当然むずかしい、という話ですね。

「でもモデルがもっと賢くなれば解決するのでは？」への反論

ここが著者のかなり強い主張です。

よくある反論はこうです。

今のマルチエージェントはまだ弱い
でも次のモデルはもっと賢い
だから今の協調問題は、そのうち自然に消えるのでは？

著者はこれを、かなりはっきり否定します。
理由はシンプルで、協調の問題はモデルの賢さだけでは消えないからです。

たとえば、どれだけ賢い人間でも、

伝言が遅れる
同時に別の判断が進む
変更の衝突が起きる
どれを正とするか決めないといけない

という問題からは逃げられません。

これはまさに分散システムの世界です。
CPUやメモリの性能を上げても、「複数のノードが同時に動く」という構造そのものが難しさを生む。
著者は、マルチエージェントも同じだと言っています。

個人的には、この指摘はかなり筋がいいと思います。
AIの能力が上がると、つい「全部強くなって終わり」と思いがちですが、問題の種類が違うんですよね。
これは計算能力の問題というより、調整・合意・衝突解決の問題です。

FLP定理って何？なぜ出てくるのか

記事の中盤では、分散システムの有名な不可能性結果である FLP theorem が出てきます。

これは超ざっくり言うと、

非同期な分散システムで、1つでも故障の可能性があると、決定的な方法だけで合意を必ず・期限内に達成するのは不可能

という結果です。

ここでいう用語を簡単に補足すると：

非同期（asynchronous）
メッセージがいつ届くか保証できない状態。
「今送ったら、相手が1秒後に見るのか、10分後に見るのか分からない」みたいな感じです。
クラッシュ故障（crash failure）
ノードやプロセスが途中で止まること。
LLMエージェントなら、ツール実行が固まる、無限ループに入る、急に反応しなくなる、みたいな状況が対応します。

著者は、LLMエージェントのやり取りもかなり非同期だと見ています。
メッセージを送っても、相手が読むタイミングは相手次第。
ツール実行が終わるまで待つこともあるし、応答が遅れることも普通にある。
だからFLPの前提がわりと当てはまる、というわけです。

そしてFLPが示すのは、安全性（safety） と 生存性（liveness） を同時に完全には保証できない、という話です。

Safety
変なものを作らないこと。
ちゃんと整合したソフトウェアになること。
Liveness
いつかは進むこと。
いつまでも合意できずに止まり続けないこと。

著者の言い方を借りると、「安全・生存・耐障害性（fault tolerance）は全部は取れない、pick two 的な話」に近いです。
このノリ、かなり分散システムっぽくて好きです。AIの話なのに、結局人類はまた分散システムに戻ってくるのか、という感じがします。

「エージェントは動いてるのに、なぜ合意してないのか」

ここも地味に重要です。
マルチエージェントのワークフローって、外から見ると「ちゃんと進んでいる」ように見えることがあります。

でも実際には、

あるエージェントが設計を決める
別のエージェントがそれをひっくり返す
また別の案に寄る
さらに戻る

というループに入ることがある。

つまり、進んでいるようで、合意には至っていないわけです。
これは人間の会議でもよくあるやつです。正直、かなりイヤなほどリアルです。

著者はここで、「動いていること」と「合意できていること」は別だと強調します。
これはマルチエージェント設計の大事な盲点だと思います。

Failure detector の話が地味におもしろい

記事ではさらに、分散システムで使われる failure detector の話にも触れます。
これは簡単に言うと、「あいつ生きてる？死んでる？」を推定する仕組みです。

著者は、共有マシン上で ps | grep claude みたいなことをすると、他のエージェントが動いているか確認できるので、これは failure detector っぽいのでは？と言っています。

もちろんこれは厳密な理論というより、かなり遊びのある比喩です。
でも発想としては面白いです。
AIエージェントに対して、単に“賢さ”を足すのではなく、死活監視や状態把握の道具を与えることが協調改善に効くのではないかという視点は、かなり実務的でもあります。

個人的には、このあたりは「AIに何を教えるか」より「AIの周辺にどんな仕組みを置くか」が重要だ、という示唆に読めました。

Byzantine Generals Problem もつながる

記事は途中で、Byzantine Generals Problem にも話を広げます。
これは「一部の参加者が嘘をつくかもしれない状況で、どうやって合意するか」という分散システムの有名問題です。

ソフトウェア開発の文脈では、エージェントが悪意を持っているとは限りません。
でも、

誤った推論をする
間違った前提を持つ
自分の出力を過信する
既存の変更を見落とす

といった意味では、結果的に“信頼できない参加者”になりえます。

だから、この問題もマルチエージェント開発と相性がいいわけです。
ここでのポイントは、参加者が賢いかどうかではなく、参加者間の通信と信頼をどう設計するかです。

この議論のいちばん重要なところ

著者は、「マルチエージェント開発なんて無理」と言っているわけではありません。
そこは大事です。

むしろ言いたいのは、

うまくいくかどうかは、モデルの賢さだけではなく、協調のための形式化・ツール・ワークフロー設計にかかっている

ということだと思います。

つまり、今後必要になるのは、

どのエージェントが何を決めるか
いつ合意を取るか
衝突が起きたときどう解決するか
どの情報を共有し、どの情報を隔離するか

といった設計です。

ここで著者が冒頭で触れていた「multi-agent workflows を記述するための language や scaffolding（足場）」が効いてきます。
単にプロンプトを工夫するだけでは足りなくて、分散した開発を扱うための言語や形式手法が必要ではないか、というわけです。

これはかなり納得感があります。
AIを“頭脳”として見るより、“分散する開発主体”として扱う方が、必要な道具立てが見えやすいからです。

まとめ：AGIが来ても、協調は勝手には消えない

この記事のメッセージを雑に言えば、

たくさんのAIエージェントでソフトウェアを作るのは、実質的に分散システムの問題
分散システムには、賢さだけでは解けない不可能性や制約がある
だから「次のモデルが全部解決してくれる」と考えるのは甘いかもしれない
ちゃんとした協調設計、通信設計、合意形成の仕組みが必要

ということです。

私はこの主張、かなり好きです。
AI記事って、どうしても「未来は明るい」「モデルがもっと賢くなる」みたいな熱量に寄りがちですが、この記事はその熱に対して、いや、構造的な難しさは残るよね と言っている。
この冷静さがいいんです。

しかも、分散システム理論を持ち込むことで、単なる感想ではなく「なぜ難しいのか」をかなりうまく説明している。
AIエージェントを本気で実運用したい人ほど、こういう視点は避けて通れないと思います。

参考: Multi-agentic Software Development is a Distributed Systems Problem (AGI can't save you from it)

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ