PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

CloudflareがLLM向け高性能基盤を構築 大規模AIを“うまく回す”ための裏側

キーポイント

本文

Cloudflareが、LLM(大規模言語モデル)を動かすための新しい高性能インフラを発表しました。
一言でいうと、​​「AIモデルを、世界中で、できるだけ速く、効率よく動かすための土台を作った」​ という話です。

これ、地味に見えてかなり重要です。
というのも、今のAIは「賢いモデルを作ること」だけでなく、​そのモデルを実際のサービスとして安定運用すること がめちゃくちゃ難しいからです。特にLLMは、ユーザーからの入力テキストを読み取り、答えを生成するだけでも重たい処理を大量にこなします。しかも、その裏側では高価なGPUを食いまくるので、効率化の工夫がないとすぐにコストが爆発します。

Cloudflareが今回打ち出したポイントのひとつが、​disaggregated prefill です。
これは少し難しそうな言葉ですが、要するに ​「入力を読む処理」と「答えを書く処理」を別々の機械に分ける」​ という考え方です。

image_0010.png

LLMの処理は大きく2段階に分かれます。

Cloudflareによると、prefill は compute bound、つまり「計算力がボトルネック」になりやすく、decode は memory bound、つまり「メモリの扱い」が効いてくる処理だそうです。
この違う性質の仕事を、同じマシンに全部押し込むのではなく、得意な機械に分けてやらせる。これはかなり筋がいい設計だと思います。人間でも、資料作成と会議進行を同じ人に全部やらせるとしんどいですからね。AIの世界でも「役割分担」は効くわけです。

さらにCloudflareは、自社のAI推論エンジン Infire を活用しています。
推論エンジンというのは、ざっくり言うと ​「学習済みモデルを実際に動かすための実行基盤」​ のことです。Infireは、複数GPUをより効率的に使い、メモリ使用量を抑え、モデルの起動も速くできるとされています。結果として、応答速度の向上につながるわけです。

image_0011.jpg

今回の話で面白いのは、モデルがあまりにも大きいので、​1台のGPUでは収まらない という現実が前提になっていることです。
記事では、たとえば Kimi K2.5 のようなモデルは1兆を超えるパラメータを持ち、サイズは約560GBにもなると紹介されています。これはもう、普通のサーバーに載せる発想では太刀打ちできません。少なくとも 8枚のH100 GPU が必要だとされており、しかも「モデルをメモリに入れるだけ」でそれだけ要る、という話です。いやはや、AIは本当に巨大化しました。

Cloudflareはこの巨大モデルを扱うために、​pipeline parallelismtensor parallelism を組み合わせています。

Infireは、pipeline parallelism では各段階のGPUが遊ばないように負荷を調整し、tensor parallelism ではGPU間の通信をなるべく減らすよう最適化しているとのことです。
ここは実務っぽくてとてもいい話です。AIインフラの世界は、単に「GPUを増やせばいい」ではなく、​GPU同士の通信コストをどう減らすか が勝負になります。速いGPUをたくさん並べても、連携が悪ければ全然速くならない。むしろ渋滞します。なんだか高速道路の合流みたいです。

image_0012.jpg

さらにCloudflareは、Infireを内部処理向けに改善することで、​GPUメモリ使用量をさらに削減 したとしています。
その結果、​Llama 4 Scoutを2枚のH200 GPU で動かせるようにし、​Kimi K2.5を8枚のH100 GPU で動かしつつ、KV cache のためのメモリも残せるようになったと説明されています。

ここで出てくる KV cache は、次の単語を生成するときに前の計算結果を覚えておく仕組みです。
簡単に言えば、​​「毎回ぜんぶ計算し直さないためのメモ帳」​ みたいなものです。これがあるからLLMは高速に会話できます。逆にここを圧迫すると、性能はすぐ苦しくなります。

Cloudflareはまた、​Unweight という仕組みも紹介しています。
これは、LLMの重み(weights)を 約15〜22%圧縮 しつつ、精度を落とさないと主張する技術です。
weights はモデルの知識そのものに近い部分で、これが小さくなるとGPUが読み込むデータ量も減り、推論が速くなりやすい。こういう「見えない無駄を削る」話は、派手さはないけれど本当に効きます。私はこういう地味な最適化、かなり好きです。AI業界って派手なデモに目が行きがちですが、実際に勝つのはこういう泥臭い改善だったりします。

記事では、Cloudflareだけでなく、他社も同じ課題に直面していると触れています。
Cockroach Labsの調査では、AIを本番環境で使い始める企業が増える中で、​既存のインフラがその負荷と信頼性要求に耐えられない という声が多いそうです。
これはかなり本質的な指摘だと思います。
昔のシステムは、人間がたまに操作する前提で作られていることが多い。でもAIは24時間、しかも大量のリクエストを受け続ける。つまり、​​「たまに使う機能」ではなく「常時稼働する基幹サービス」​ になるわけです。そりゃ古いインフラでは苦しいです。

image_0013.jpg

Cloudflareが今回示したのは、単なる「うちのGPU速いです」という話ではありません。
むしろ、​LLMを現実のサービスとして運用するには、モデルそのものだけでなく、通信、分割、メモリ、起動、キャッシュ、圧縮まで全部ひっくるめて設計しないといけない という、AIインフラの本質をよく表しています。

個人的には、ここは今後ますます重要になると思います。
モデルの性能差が縮まってくると、最後に効くのは「どれだけ安く、速く、安定して動かせるか」です。クラウド事業者や大規模サービスにとっては、モデルの賢さだけでなく、​運用のうまさが競争力 になるはずです。

AIの未来は「より大きなモデル」だけではなく、「よりうまく回るモデル基盤」にかかっている。
Cloudflareの発表は、そのことをかなりわかりやすく示している記事でした。


参考: Cloudflare Builds High-Performance Infrastructure for Running LLMs

同じ著者の記事