世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

CloudflareがLLM向け高性能基盤を構築　大規模AIを“うまく回す”ための裏側

キーポイント

Cloudflareが、グローバルネットワーク上でLLM（大規模言語モデル）を動かすための新しい基盤を発表
重要なのは、入力処理（prefill） と 出力生成（decode） を別々のシステムで処理する「disaggregated prefill」
自社の推論エンジン Infire により、GPUをより効率よく使い、メモリ消費を減らし、起動も速くしている
超巨大モデルは1つのGPUに収まらないため、複数GPUで分割して動かす必要がある
Cloudflareは Unweight という圧縮技術も紹介し、モデルの重みを約15〜22%小さくできるとしている
こうした工夫は、「AIを作る」よりも「AIを安定して速く動かす」難しさをよく表している

本文

Cloudflareが、LLM（大規模言語モデル）を動かすための新しい高性能インフラを発表しました。
一言でいうと、「AIモデルを、世界中で、できるだけ速く、効率よく動かすための土台を作った」 という話です。

これ、地味に見えてかなり重要です。
というのも、今のAIは「賢いモデルを作ること」だけでなく、そのモデルを実際のサービスとして安定運用すること がめちゃくちゃ難しいからです。特にLLMは、ユーザーからの入力テキストを読み取り、答えを生成するだけでも重たい処理を大量にこなします。しかも、その裏側では高価なGPUを食いまくるので、効率化の工夫がないとすぐにコストが爆発します。

Cloudflareが今回打ち出したポイントのひとつが、disaggregated prefill です。
これは少し難しそうな言葉ですが、要するに 「入力を読む処理」と「答えを書く処理」を別々の機械に分ける」 という考え方です。

LLMの処理は大きく2段階に分かれます。

prefill: 入力された文章を読み込み、内部状態を準備する段階
decode: そこから実際に文章を生成していく段階

Cloudflareによると、prefill は compute bound、つまり「計算力がボトルネック」になりやすく、decode は memory bound、つまり「メモリの扱い」が効いてくる処理だそうです。
この違う性質の仕事を、同じマシンに全部押し込むのではなく、得意な機械に分けてやらせる。これはかなり筋がいい設計だと思います。人間でも、資料作成と会議進行を同じ人に全部やらせるとしんどいですからね。AIの世界でも「役割分担」は効くわけです。

さらにCloudflareは、自社のAI推論エンジン Infire を活用しています。
推論エンジンというのは、ざっくり言うと 「学習済みモデルを実際に動かすための実行基盤」 のことです。Infireは、複数GPUをより効率的に使い、メモリ使用量を抑え、モデルの起動も速くできるとされています。結果として、応答速度の向上につながるわけです。

今回の話で面白いのは、モデルがあまりにも大きいので、1台のGPUでは収まらない という現実が前提になっていることです。
記事では、たとえば Kimi K2.5 のようなモデルは1兆を超えるパラメータを持ち、サイズは約560GBにもなると紹介されています。これはもう、普通のサーバーに載せる発想では太刀打ちできません。少なくとも 8枚のH100 GPU が必要だとされており、しかも「モデルをメモリに入れるだけ」でそれだけ要る、という話です。いやはや、AIは本当に巨大化しました。

Cloudflareはこの巨大モデルを扱うために、pipeline parallelism と tensor parallelism を組み合わせています。

pipeline parallelism: 処理を段階ごとに分けて、複数GPUで流れ作業のように処理する
tensor parallelism: 1つのモデル内部の計算をGPU同士で分担する

Infireは、pipeline parallelism では各段階のGPUが遊ばないように負荷を調整し、tensor parallelism ではGPU間の通信をなるべく減らすよう最適化しているとのことです。
ここは実務っぽくてとてもいい話です。AIインフラの世界は、単に「GPUを増やせばいい」ではなく、GPU同士の通信コストをどう減らすか が勝負になります。速いGPUをたくさん並べても、連携が悪ければ全然速くならない。むしろ渋滞します。なんだか高速道路の合流みたいです。

さらにCloudflareは、Infireを内部処理向けに改善することで、GPUメモリ使用量をさらに削減 したとしています。
その結果、Llama 4 Scoutを2枚のH200 GPU で動かせるようにし、Kimi K2.5を8枚のH100 GPU で動かしつつ、KV cache のためのメモリも残せるようになったと説明されています。

ここで出てくる KV cache は、次の単語を生成するときに前の計算結果を覚えておく仕組みです。
簡単に言えば、「毎回ぜんぶ計算し直さないためのメモ帳」 みたいなものです。これがあるからLLMは高速に会話できます。逆にここを圧迫すると、性能はすぐ苦しくなります。

Cloudflareはまた、Unweight という仕組みも紹介しています。
これは、LLMの重み（weights）を 約15〜22%圧縮 しつつ、精度を落とさないと主張する技術です。
weights はモデルの知識そのものに近い部分で、これが小さくなるとGPUが読み込むデータ量も減り、推論が速くなりやすい。こういう「見えない無駄を削る」話は、派手さはないけれど本当に効きます。私はこういう地味な最適化、かなり好きです。AI業界って派手なデモに目が行きがちですが、実際に勝つのはこういう泥臭い改善だったりします。

記事では、Cloudflareだけでなく、他社も同じ課題に直面していると触れています。
Cockroach Labsの調査では、AIを本番環境で使い始める企業が増える中で、既存のインフラがその負荷と信頼性要求に耐えられない という声が多いそうです。
これはかなり本質的な指摘だと思います。
昔のシステムは、人間がたまに操作する前提で作られていることが多い。でもAIは24時間、しかも大量のリクエストを受け続ける。つまり、「たまに使う機能」ではなく「常時稼働する基幹サービス」 になるわけです。そりゃ古いインフラでは苦しいです。

Cloudflareが今回示したのは、単なる「うちのGPU速いです」という話ではありません。
むしろ、LLMを現実のサービスとして運用するには、モデルそのものだけでなく、通信、分割、メモリ、起動、キャッシュ、圧縮まで全部ひっくるめて設計しないといけないという、AIインフラの本質をよく表しています。

個人的には、ここは今後ますます重要になると思います。
モデルの性能差が縮まってくると、最後に効くのは「どれだけ安く、速く、安定して動かせるか」です。クラウド事業者や大規模サービスにとっては、モデルの賢さだけでなく、運用のうまさが競争力 になるはずです。

AIの未来は「より大きなモデル」だけではなく、「よりうまく回るモデル基盤」にかかっている。
Cloudflareの発表は、そのことをかなりわかりやすく示している記事でした。

参考: Cloudflare Builds High-Performance Infrastructure for Running LLMs

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ

CloudflareがLLM向け高性能基盤を構築 大規模AIを“うまく回す”ための裏側

キーポイント

本文

CloudflareがLLM向け高性能基盤を構築　大規模AIを“うまく回す”ための裏側