世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-30

GPUのマトリクス乗算は、なぜ「予測しやすいデータ」で速くなるのか

キーポイント

GPUの matrix multiplication（matmul）は、普通は「入力の値に関係なく同じ速さ」で動くと思いがち
ところが実際には、ゼロや同じ値のような“予測しやすいデータ”のほうが速くなることがある
理由は、GPU内部の dynamic/switching power（トランジスタが切り替わるたびに消費される電力）
電力制限に当たると GPU は throttling（性能を落として消費電力を抑える）するので、速さが変わる
これは「GPUは計算性能だけでなく、電力との綱引きで速さが決まる」ことをよく示していて、かなり面白い
Nvidiaのカタログ上の FLOPS と、実際の持続性能に差が出る理由もここにある

まず何が起きたのか

この記事の出発点は、かなりシンプルです。

著者の Horace He さんは、GPU向けの高速matmul実装である CUTLASS を試していました。
8192×8192×8192 の大きな行列積をベンチマークすると、最初は CUTLASS が CuBLAS より速いように見えたそうです。これは「お、すごい」と思いますよね。私もここでちょっとテンションが上がります。

でも、Python から同じ CUTLASS を呼び出して比較すると、その差が消えてしまう。
さらに調べると、入力行列の中身が違うだけで性能が変わることに気づきます。

たとえば、

全部ゼロの入力: 約 295 Teraflops
正規分布のランダム値（randn）: 約 257 Teraflops

という具合です。

ここがかなり不思議です。
普通、行列積は「同じサイズなら、どんな値でも同じ計算量」です。掛け算の回数も、メモリの読み方も、基本は変わらない。
なので、値の中身で速度が変わるなんておかしい、というのが最初の自然な感覚だと思います。

なぜ値で速度が変わるのか

結論からいうと、犯人は dynamic/switching power でした。

GPUはただ計算しているだけではなく、内部の無数のトランジスタが高速に ON/OFF を繰り返しています。
この「切り替わる回数」が多いほど電力を食います。これが switching power、つまり動的電力です。

一方で、何もしなくても消える電力もあります。これは static/leakage power と呼ばれます。
ざっくり言えば、

static power: だいたい“待機しているだけでかかる固定費”
dynamic power: “実際に動くほど増える変動費”

みたいなものです。

GPUには電力上限があり、そこに達すると GPU は clock speed（動作周波数）を下げて消費電力を抑えます。
この状態が throttling です。つまり、高い性能を出したくても、電力が足りなければ勝手にスピードを落とされるわけです。

そこで重要になるのが、入力データの「予測しやすさ」です。

ゼロばかりのデータ
→ 内部のビット変化が少なく、トランジスタの切り替わりも少ない
ランダムなデータ
→ 値の変化が激しく、切り替わりも増える

その結果、ゼロのような“おとなしいデータ”のほうが電力を食わず、クロックが落ちにくいので速くなる、というわけです。

率直に言うと、これはかなり気持ちいい発見です。
「計算量は同じなのに速さが違う」というのは、最初はバグっぽい。でも、電力という別の軸を持ち込むと一気に腑に落ちる。ハードウェアってこういう“見えない制約”が本当に効くんですよね。

どんなデータが速いのか

著者はさまざまなデータ分布でも試しています。たとえば：

Zeros: 全部 0
Twos: 全部 2
All Pies: 全部 π
One Bit: 各値の1ビットだけが立っている
Ternary: 1, -1, 0 のみ
Sparse: 75% をマスクした疎なデータ
Checkerboard: チェッカーボード状に 0 を混ぜたもの
Randn: 正規分布の乱数
Rand: 一様分布の乱数

ざっくりした傾向としては、

Zeros が最速
All ones や Twos もかなり速い
一様分布は正規分布より少し速い
正規分布が一番きついことが多い

という流れです。

著者の推測では、ゼロや定数ばかりの入力では、演算結果や内部状態の変化が少なくなり、トランジスタのスイッチングも減るのだろう、とのこと。
これはあくまで推測も含みますが、実験結果とはかなり整合しています。

個人的には、ここで「unstructured sparsity isn’t efficient with tensor cores?」と冗談っぽく言っているのが好きです。
普通は「疎なデータは効率が悪いこともある」とか、逆に「疎なら速い」とか、文脈次第で話がややこしいのですが、少なくとも**“ゼロが多いと電力的に有利”**というのは、かなり直感に反していて面白いです。