世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

OpenAIがWebSocket対応のResponses APIを導入。エージェント系AIの“待ち時間”を減らす新しい一手

キーポイント

OpenAIが Responses API に WebSocketベースの実行モード を追加した
これにより、HTTPの「1回やり取りして終わり」ではなく、接続をつないだまま双方向通信 できる
目的は、agentic workflows（複数ステップで考えて動くAIの処理） の遅延を減らすこと
OpenAIによると、最大40%のlatency削減 が見込める
Vercel、Cline、Cursorなどの開発ツールでも、すでに効果が出ている
ただし、速くなるぶん 接続管理や負荷制御 といった設計上の論点も増える

何が起きたのか

OpenAIが、Responses APIに WebSocketベースの実行モード を追加しました。
これはざっくり言うと、AIとの会話や処理のたびに毎回HTTPで「送る→返す」を繰り返すのではなく、つながったまま会話し続ける通信方式 に切り替える、という話です。

InfoQの記事では、この変更によって agentic workflows、つまりAIが単発で答えるのではなく、

中間推論を挟む
ツールを呼ぶ
結果を見て次のアクションを決める

といった 複数ステップの処理 で、遅延とオーバーヘッドを減らせると説明しています。

正直、これはかなり筋のいい改善だと思います。
AIモデルそのものが速くなっても、実運用では「ネットワークの往復」が地味に足を引っ張ることが多いんですよね。特にエージェント系は、1回の応答で終わらず、何度もやり取りするので、通信の待ち時間が積み重なって効いてくる。そこを叩きにいったのが今回のポイントです。

そもそもWebSocketって何？

専門用語をかみ砕くと、WebSocketは “つなぎっぱなしで会話できる通信方式” です。

普通のHTTPは、イメージとしてはこんな感じです。

リクエストを送る
サーバーが返す
一旦終わり
必要ならまた最初からやる

一方WebSocketは、

最初に接続を張る
そのまま双方向にメッセージをやり取りし続ける

という形です。

つまり、毎回の「接続の準備」や「お作法のやり直し」が減る。
この差が、リアルタイム性が大事なAIシステム ではかなり効くわけです。

なぜ今、この改善が重要なのか

記事によると、AIモデルの推論速度自体は改善してきた一方で、次のような処理がボトルネックになってきたそうです。

tool calls（外部ツール呼び出し）
intermediate reasoning（途中の推論）
follow-up queries（追加質問）
複数ステップのオーケストレーション（処理の順番管理）

ここで面白いのは、「モデルの賢さ」ではなく「通信の設計」が勝負を分ける場面が増えている ことです。
AI業界って、どうしても「より賢いモデルが出た！」という話に目が行きがちですが、実際のプロダクトでは、こういう地味な基盤改善がユーザー体験を大きく左右します。私はここがいちばん現実的で、いちばん重要な話だと思います。

どれくらい速くなるのか

OpenAIは、初期の本番利用で 最大40%のlatency reduction（遅延削減） を確認したとしています。
さらに、1,000 TPS前後を安定的に処理 し、バースト時には4,000 TPS に達したとも説明されています。

TPSは transactions per second の略で、1秒間にどれだけ処理できるかを示す数字です。
要するに、「人が増えてもさばけるか」「急にアクセスが増えても耐えられるか」という話ですね。

ここで大事なのは、単に“速くなった”だけでなく、高負荷時のスループットも改善している ことです。
AIシステムは、1回の応答速度だけではなく、混雑したときの安定性がかなり大事なので、この点は実運用ではかなり魅力的です。

どうやって実装するのか

開発者側は、複数回のHTTP呼び出しをやめて、1つのpersistent session（長生きする接続） を使う形で統合します。

これによって、

接続を毎回張り直さなくてよい
ストリーミング処理がやりやすい
複数ステップの制御ロジックが簡単になる

というメリットがあります。

特にストリーミングは重要です。
これは、答えを全部まとめて返すのではなく、生成された分から順に見せる 仕組みのこと。コード生成や対話型のAIでは、ユーザーが「途中経過」を見られるだけでも体感速度がかなり違います。

個人的には、ここはかなり“地味だけど効く”改善だと思います。
AIの応答って、最終結果の品質だけじゃなくて、「待たされている感じ」 がUXを悪くするんですよね。WebSocketは、そのストレスを減らす方向に効きます。

OpenAIだけの話ではない

この変更は、すでに周辺ツールにも波及しています。

記事では、以下のような例が挙げられていました。

Vercel: AI SDKに統合し、最大40%のlatency削減を報告
Cline: multi-file workflowsで39%改善
Cursor: 最大30%の改善

この流れを見ると、今回のポイントは「OpenAIが新機能を出した」だけではありません。
むしろ、AIツール全体が、モデル中心から“通信と実行の最適化”へと関心を広げている のが面白いところです。

要するに、AI開発はもう「どのLLMが一番賢いか」だけでは戦えない、ということですね。
どの接続方式を選ぶか、どう状態を持つか、どうツールを呼ぶか。こういう基盤設計が、かなり差を生む時代になってきたのだと思います。

いいことばかりではない

もちろん、WebSocketにすれば全部ハッピー、ではありません。

記事でも、新しい設計課題として次のような点が挙げられています。

connection lifecycle management
接続をいつ張り、いつ切るかの管理
backpressure
処理が追いつかないときに、データをどう流すか
reliability in distributed systems
分散システムでどう安定運用するか

つまり、WebSocketは速いけれど、状態を持つぶん難しさも増える んです。
HTTPはシンプルで壊れにくい一方、WebSocketはリアルタイム性と引き換えに運用の考慮点が増える。ここはエンジニアなら「たしかにそう」とうなずくところではないでしょうか。

私は、今回の話は「WebSocketが偉い」というより、AIの性能改善がモデル単体からシステム全体へ移ってきた象徴 だと感じました。
この視点はかなり大事です。AIはもう、モデルの賢さだけでなく、インフラ・通信・オーケストレーションまで含めて“製品”なんですよね。

すでに本番投入も進んでいる

OpenAIはこの機能を alpha として、まず選ばれたパートナーに提供しました。
その中には Codex も含まれていて、Codexはすでに Responses APIトラフィックの大半をWebSocketモードに移行 しているとのことです。

つまり、これは実験室だけの話ではなく、本番でも使われ始めている ということ。
こういうのは、単なる「発表」よりずっと重みがあります。プロダクトに入っているなら、少なくともOpenAI自身は「これはいける」と見ているわけですから。

まとめると

今回の更新は、AIの応答をちょっと速くする小手先の改善ではありません。
“エージェントが何度もやり取りしながら動く” という現代的なAIの使い方に、通信レイヤーから本気で最適化をかけた という話です。

しかも、効果が最大40%というのはかなり大きい。
AIプロダクトは見た目には派手でも、実際に勝敗を分けるのはこういう基盤の差だったりします。私はこの方向性、かなり本命だと思います。
これからのAI開発は、「賢いモデルを呼ぶ」だけではなく、どうつなぎ、どう流し、どう待ち時間を減らすか がますます重要になっていきそうです。

参考: OpenAI Introduces Websocket-Based Execution Mode to Reduce Latency in Agentic Workflows

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ