世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-05

10年前のXeonでGemma 4を動かすという狂気と工夫

記事のキーポイント

2016年製のXeon、DDR3メモリ、GPUなしという“普通なら無理”な環境でLLMを動かした話
速さのカギはCPU性能よりもmemory bandwidth（メモリからデータを運ぶ速さ）
speculative decoding で、重いモデルの前に軽いモデルを走らせて高速化している
MoE（Mixture of Experts）モデルでは、どの expert をどう扱うかが性能に直結する
mlock や run-time-repack みたいな地味な最適化が、古いマシンではかなり効く
便利な黒箱ツールではなく、細かいフラグを理解して使い分けることが重要

本文

「10年前のXeonで最新級のLLMを動かす」と聞くと、正直かなり無茶に見えます。
でも今回の元記事は、その“無茶”をちゃんと工夫で押し切る話で、かなり面白いです。私はこういう、性能の限界をソフトウェアでねじ伏せる系の話が大好きです。ロマンがあります。

舞台は、2016年製の Intel Xeon E5-2620 v4 を積んだ再生サーバー。
メモリはなんと 128GB DDR3。容量はあるけど、速度は今どきのRAMよりかなり遅い。しかも GPUなし。つまり、LLMを動かすにはかなり不利な条件です。

普通なら「じゃあ無理ですね」で終わりそうですが、この記事はそこで終わらない。
著者が狙っているのは、Gemma 4 をこの古いCPU機でできるだけ実用的に走らせることです。

まず大事な前提：LLMは「計算」より「メモリ転送」で詰まりやすい

この記事の核はここです。
LLMの推論は、実はCPUの演算能力だけでは決まりません。むしろ多くの場合、ボトルネックは memory bandwidth、つまり「重みデータをどれだけ速く運べるか」です。

ざっくり言うと

モデルの“知識”は大量の重みデータとしてRAMにある
1トークン生成するたびに、その重みを何度も読み出す
CPUは計算自体はできても、データが届くのを待って暇になりがち

これはいわゆる memory wall の問題です。
CPUの演算性能はどんどん上がっているのに、メモリの転送速度が追いつかない。結果、CPUは「計算する準備はできてるのに材料が来ない」という状態になるわけです。かなりもどかしい世界です。

そこで登場するのが、細かい最適化の数々

元記事では、ふつうの黒箱ツールではなく、ik_llama.cpp が公開している細かなオプションを大量に使っています。
正直、フラグの羅列だけ見ると呪文です。でも、やっていることは筋が通っています。

使っている主な工夫

speculative decoding
cpu-moe
merge-up-gate-experts
mlock
run-time-repack
no-kv-offload
さらに graph split などのレイアウト調整

このあたり、一般ユーザー向けにはかなりマニアックです。
ただ私は、こういう「便利なUIの裏で何が起きているか」を理解している記事はすごく価値があると思います。AIは派手に見えて、実際はかなり泥臭い最適化の積み重ねなんですよね。

speculative decoding が古いCPUで効く理由

この記事の重要ポイントのひとつが speculative decoding です。
これは、重い“本命モデル”の前に、小さくて軽い“下書きモデル”を走らせて、候補トークンを先回りで出す仕組みです。

何がうれしいのか

まず軽いモデルが候補を作る
本命モデルがそれをまとめて検証する
うまくいけば、重いモデルの実行回数を減らせる

要するに、「毎回ゼロから重い計算をする」のを避けるテクニックです。
特にCPUでは、計算そのものよりメモリ転送が高くつくので、軽い drafter を使う価値が大きい。著者はこの点をかなり強く押しています。

個人的にも、これはかなり“AI時代っぽい発明”だと思います。
CPUやGPUの素の力で殴るだけではなく、賢く予測して無駄な読み出しを減らす。まさにソフトウェアでハードウェアの弱点を補う発想です。

MoEモデルは「expert」の扱いで差が出る

Gemma 4 26B-A4B は MoE（Mixture of Experts） 型のモデルです。
MoEは、たくさんある expert のうち、毎回その一部だけを使う方式です。

この記事に出てくる構成

128 experts
そのうち 8 active per token
実質的に使うパラメータは約 3.8B
全体では約 25.2B

ここでポイントになるのが、CPUでMoEを回すときの cache thrashing です。
cache はCPU内部の超高速メモリですが、MoEは「たくさんある expert をあちこち参照する」ので、キャッシュがすぐ入れ替わってしまうことがあります。これが cache thrashing。要するに、CPUが毎回バタバタして落ち着かない状態です。

その対策として使われているのが cpu-moe です。
これは expert の選び方や並べ方をCPU向けに調整し、キャッシュに乗りやすくするためのものです。

さらに merge-up-gate-experts によって、expert 内の一部計算をまとめて実行し、メモリ往復を減らしています。
こういう「1回でもRAMとの往復を減らす」工夫は、DDR3環境では特に効くはずです。