PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

45℃の液体でAIサーバーを冷やす時代へ――NVIDIAが示した「熱いのに効く」冷却革命

AI向けサーバーの冷却と聞くと、普通は「もっと冷やす」「もっと風を送る」という方向を想像します。ところがNVIDIAの最新記事が示しているのは、その逆でした。​冷却液を45℃まで上げても、むしろ効率がよくなるという話です。しかもこれは単なる変わり種の実験ではなく、AIデータセンターの省エネと省水にかなり大きな意味を持つ、かなり本気の話です。

まず押さえたいポイント

「冷たいほど良い」は、データセンターでは半分しか正しくない

この記事で面白いのは、まず発想の転換です。
一般には、機械は冷やしたほうがいい。だからデータセンターも冷房を強くして、ひんやりした空間にしておく。そう考えがちです。

でもNVIDIAは、​AIサーバーの冷却では“冷たさ”そのものが目的ではないと言っています。大事なのは、チップが出す熱をいかに効率よく外へ運び出すか。そのために、液体を使う。しかもその液体を45℃まで許容する。これが効率化のポイントです。

一見すると「そんな熱い液体で本当に冷えるの?」と思いますよね。私も最初に読んだときはちょっと引っかかりました。でも、考えてみれば理屈はわかる。チップの熱を直接回収して、液体で運ぶなら、空気を大量に冷やして回すよりずっと効率がいい。そもそも空気は熱を運ぶのがあまり得意ではありません。ここが大きいです。

100%液体冷却は、空冷の延長ではない

これまでの液体冷却サーバーは、GPUやCPUの一部だけを液体で冷やし、それ以外はファンと空気で冷やす「ハイブリッド」が多かったようです。つまり、まだ空冷の世界がかなり残っていたわけです。

ところがRubin世代では、​チップもネットワーク部品も、全部液体で冷やす。ファンがありません。空気の流れを前提にしたホットアイル/コールドアイルの設計も、もう中心ではない。これはサーバーの作りそのものが変わるということです。

記事では、冷却液が75%の水と25%のpropylene glycolだと説明しています。これがサーバー内のcold plate(チップに密着して熱を吸い取る板)を通って熱を回収し、外のdry coolerへ運びます。dry coolerは、ざっくり言えば外に置いた巨大なラジエーターみたいなものです。

image_0003.jpg

ここで効いてくるのが、冷却液を45℃まで上げられること。液体がそんなに高温でも機能するから、外気を使って熱を逃がすだけで済む期間が長くなる。結果として、​機械式のchiller(強力な冷凍装置)を動かす回数を減らせるわけです。

電気だけでなく、水も減るのが大きい

この記事でかなり強く押し出されているのが、​水の使用量を極端に減らせる点です。
NVIDIAのAli Heydari氏は、DSX reference designではzero water consumptionをうたっていて、閉ループで回す設計なら蒸発冷却をほぼ使わない、としています。

この話は地味に見えて、実はかなり重要です。データセンターというと電気代の話ばかりしがちですが、現実には水も使います。特に従来の冷却塔ベースの方式では、記事によると1MWあたり年間約260万ガロンの冷却用水を使うことがあるそうです。これが、うまくいけばほぼゼロになる。

水の消費を100%削減できる可能性がある、というのはかなりインパクトがあります。AIが広がるほどデータセンターは増えるし、データセンターが増えるほど水と電力の負担は重くなる。だからこの手の改善は、単なる節約ではなく、AIインフラを社会に受け入れてもらうための条件にもなってくると思います。

45℃が効く理由は、冷やす場所を変えているから

ここは少しだけ仕組みを丁寧に見たほうがわかりやすいです。

従来の空冷は、部屋の空気を冷やして、その冷えた空気をサーバーに送り、熱くなった空気をまた戻して冷やす、という方式です。つまり、​部屋全体を“冷たい空気の置き場”にする発想です。

一方でNVIDIAの液体冷却は、​熱を出す場所のすぐ近くで回収する。チップにぴったりついたcold plateで熱を吸い取り、その熱を液体が持ち出す。すると、サーバールーム全体を冷やし続ける必要が薄くなる。だから「外気が少し暑いくらいなら別にいい」という世界になります。

記事中の表現を借りると、データセンターの周囲温度は柔軟で、​warm summer air is fine。要は、サーバー自身が空気の冷たさに依存しないのです。これは感覚としてかなり新しい。データセンターは寒くないといけない、という昔ながらのイメージをかなり壊してきます。

「うるさいデータセンター」も変わるかもしれない

image_0004.jpg

空冷のデータセンターは、音が大きいです。記事ではファンの騒音が85デシベル以上になることがあると触れています。これはかなり大きく、耳の保護が必要なレベルです。実際、こういう場所は入るだけで圧を感じます。

液体冷却が進めば、この騒音も減る。ファンが減るからです。
もちろん、データセンターの静音化それ自体が主目的ではないでしょう。でも、働く人にとってはかなりありがたいはずです。私はこの点も見逃せないと思っています。省エネは数字に出やすいですが、静かになることは現場の快適さをじわっと変えます。

それでも「どこでも使える」わけではない

ここは大事です。記事は液体冷却をかなり強く押していますが、​万能だとは言っていません
気候の差は無視できないからです。

たとえばスコットランド高地とアリゾナ州フェニックスでは、外気を使った放熱のしやすさが全然違う。だから、dry coolerだけで済む時間がどれだけあるかは場所次第です。NVIDIAも、真夏や気温の厳しい地域では、年に数日だけchillerが必要になることはある、としています。

この「地理の制約」があるのは、むしろ誠実だと思います。技術記事って、たまに全部うまくいくように書きがちですが、実際はそうではない。​冷却インフラは気候と土地代にすごく縛られる。だからこそ、設計の自由度が増えること自体が価値になるわけです。

もはや冷却ではなく、設計思想の更新

個人的に一番おもしろいのはここです。
この話は「新しい冷却装置が出ました」で終わる話ではないんですよね。​AIファクトリーの作り方そのものを変える話です。

記事では、Rubinプラットフォームが100%液体冷却を前提にしているので、それを導入するクラウド事業者やデータセンター運営者は、自然とその設計へ移行することになるとしています。すでにSchneider ElectricのMotivairのような冷却企業も、NVIDIAのロードマップに長く寄り添ってきた、と。

つまり、GPUベンダーの話に見えて、実はサーバー、冷却、建物、運用の全部を巻き込む産業変化です。こうなると、もはや「冷却」は裏方ではなく、AIインフラの主役の一つです。AIを回すための工場をどう作るか、という問いに直結している。

image_0005.jpg

省エネの話なのに、最後は「土地」と「建物」に帰ってくる

もう一つ面白いのは、液体冷却が進むと、​設置スペースも小さくできることです。記事では、従来6ラックユニット必要だったものが2ラックユニットに収まる例が出ています。つまり、より高密度に計算資源を詰め込める。

これは単に「省スペースでうれしい」では終わりません。AI計算需要は今も増え続けていて、データセンターは電力だけでなく、土地や建物の制約とも戦っています。冷却効率が上がると、建物の設計自由度も上がる。ここに、インフラとしてのAIの重さが見えます。

さらに記事では、​廃熱の再利用にも触れています。データセンターの熱を近くの商業施設や住宅の暖房に使う、あの発想です。これはまだ場所を選ぶ話ですが、もし広がれば「AIは電気を食うだけの存在」ではなく、地域エネルギーの一部になる可能性もある。これ、かなり未来っぽくて好きです。

率直に言うと、かなり筋のいい方向転換だと思う

この手の話は、派手なAIモデルの話ほど目立たないかもしれません。けれど、実際のAI普及を支えるのはこういう地味な基盤です。
モデルが賢くなっても、電力と水のコストで詰まったら終わりですからね。

NVIDIAの今回の主張は、単なる「熱い冷却液でも大丈夫」という小ネタではなく、​AI時代のインフラは“冷やす”より“熱をどう運ぶか”で考えるべきだという提案に見えます。私はかなり筋がいいと思います。少なくとも、これまでの「とにかく冷房を強くする」式の発想よりは、ずっと現実的です。

もちろん、導入コストや地域差、運用ノウハウの問題は残るでしょう。でも、AIが今後もっと大規模になるなら、こういう冷却の再設計は避けて通れません。45℃の冷却液が示しているのは、熱をより熱いまま扱うことで、全体を賢くするという逆転の発想です。これ、なかなか気持ちいいです。


参考: Hotter Than a Hot Tub: The 45°C Breakthrough to Cool AI’s Biggest Machines

同じ著者の記事