PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

OpenAIがWebSocket対応のResponses APIを導入。エージェント系AIの“待ち時間”を減らす新しい一手

キーポイント

何が起きたのか

OpenAIが、Responses APIに WebSocketベースの実行モード を追加しました。
これはざっくり言うと、AIとの会話や処理のたびに毎回HTTPで「送る→返す」を繰り返すのではなく、​つながったまま会話し続ける通信方式 に切り替える、という話です。

InfoQの記事では、この変更によって agentic workflows、つまりAIが単発で答えるのではなく、

といった 複数ステップの処理 で、遅延とオーバーヘッドを減らせると説明しています。

正直、これはかなり筋のいい改善だと思います。
AIモデルそのものが速くなっても、実運用では「ネットワークの往復」が地味に足を引っ張ることが多いんですよね。特にエージェント系は、1回の応答で終わらず、何度もやり取りするので、​通信の待ち時間が積み重なって効いてくる。そこを叩きにいったのが今回のポイントです。

そもそもWebSocketって何?

image_0011.jpeg

専門用語をかみ砕くと、WebSocketは “つなぎっぱなしで会話できる通信方式” です。

普通のHTTPは、イメージとしてはこんな感じです。

  1. リクエストを送る
  2. サーバーが返す
  3. 一旦終わり
  4. 必要ならまた最初からやる

一方WebSocketは、

  1. 最初に接続を張る
  2. そのまま双方向にメッセージをやり取りし続ける

という形です。

つまり、毎回の「接続の準備」や「お作法のやり直し」が減る。
この差が、​リアルタイム性が大事なAIシステム ではかなり効くわけです。

なぜ今、この改善が重要なのか

image_0012.jpeg

記事によると、AIモデルの推論速度自体は改善してきた一方で、次のような処理がボトルネックになってきたそうです。

ここで面白いのは、​​「モデルの賢さ」ではなく「通信の設計」が勝負を分ける場面が増えている ことです。
AI業界って、どうしても「より賢いモデルが出た!」という話に目が行きがちですが、実際のプロダクトでは、こういう地味な基盤改善がユーザー体験を大きく左右します。私はここがいちばん現実的で、いちばん重要な話だと思います。

どれくらい速くなるのか

OpenAIは、初期の本番利用で 最大40%のlatency reduction(遅延削減)​ を確認したとしています。
さらに、​1,000 TPS前後を安定的に処理 し、​バースト時には4,000 TPS に達したとも説明されています。

TPSは transactions per second の略で、1秒間にどれだけ処理できるかを示す数字です。
要するに、「人が増えてもさばけるか」「急にアクセスが増えても耐えられるか」という話ですね。

ここで大事なのは、単に“速くなった”だけでなく、​高負荷時のスループットも改善している ことです。
AIシステムは、1回の応答速度だけではなく、混雑したときの安定性がかなり大事なので、この点は実運用ではかなり魅力的です。

どうやって実装するのか

開発者側は、複数回のHTTP呼び出しをやめて、​1つのpersistent session(長生きする接続)​ を使う形で統合します。

image_0013.jpg

これによって、

というメリットがあります。

特にストリーミングは重要です。
これは、答えを全部まとめて返すのではなく、​生成された分から順に見せる 仕組みのこと。コード生成や対話型のAIでは、ユーザーが「途中経過」を見られるだけでも体感速度がかなり違います。

個人的には、ここはかなり“地味だけど効く”改善だと思います。
AIの応答って、最終結果の品質だけじゃなくて、​​「待たされている感じ」​ がUXを悪くするんですよね。WebSocketは、そのストレスを減らす方向に効きます。

OpenAIだけの話ではない

この変更は、すでに周辺ツールにも波及しています。

記事では、以下のような例が挙げられていました。

image_0014.jpg

この流れを見ると、今回のポイントは「OpenAIが新機能を出した」だけではありません。
むしろ、​AIツール全体が、モデル中心から“通信と実行の最適化”へと関心を広げている のが面白いところです。

要するに、AI開発はもう「どのLLMが一番賢いか」だけでは戦えない、ということですね。
どの接続方式を選ぶか、どう状態を持つか、どうツールを呼ぶか。こういう基盤設計が、かなり差を生む時代になってきたのだと思います。

いいことばかりではない

もちろん、WebSocketにすれば全部ハッピー、ではありません。

記事でも、新しい設計課題として次のような点が挙げられています。

つまり、WebSocketは速いけれど、​状態を持つぶん難しさも増える んです。
HTTPはシンプルで壊れにくい一方、WebSocketはリアルタイム性と引き換えに運用の考慮点が増える。ここはエンジニアなら「たしかにそう」とうなずくところではないでしょうか。

image_0015.jpg

私は、今回の話は「WebSocketが偉い」というより、​AIの性能改善がモデル単体からシステム全体へ移ってきた象徴 だと感じました。
この視点はかなり大事です。AIはもう、モデルの賢さだけでなく、インフラ・通信・オーケストレーションまで含めて“製品”なんですよね。

すでに本番投入も進んでいる

OpenAIはこの機能を alpha として、まず選ばれたパートナーに提供しました。
その中には Codex も含まれていて、Codexはすでに Responses APIトラフィックの大半をWebSocketモードに移行 しているとのことです。

つまり、これは実験室だけの話ではなく、​本番でも使われ始めている ということ。
こういうのは、単なる「発表」よりずっと重みがあります。プロダクトに入っているなら、少なくともOpenAI自身は「これはいける」と見ているわけですから。

まとめると

今回の更新は、AIの応答をちょっと速くする小手先の改善ではありません。
“エージェントが何度もやり取りしながら動く” という現代的なAIの使い方に、通信レイヤーから本気で最適化をかけた という話です。

しかも、効果が最大40%というのはかなり大きい。
AIプロダクトは見た目には派手でも、実際に勝敗を分けるのはこういう基盤の差だったりします。私はこの方向性、かなり本命だと思います。
これからのAI開発は、「賢いモデルを呼ぶ」だけではなく、​どうつなぎ、どう流し、どう待ち時間を減らすか がますます重要になっていきそうです。


参考: OpenAI Introduces Websocket-Based Execution Mode to Reduce Latency in Agentic Workflows

同じ著者の記事