10年前のXeonでGemma 4を動かすという狂気と工夫
2016年製のXeon、DDR3メモリ、GPUなしという“普通なら無理”な環境でLLMを動かした話 速さのカギはCPU性能よりもmemory bandwidth(メモリからデータを運ぶ速さ) speculative decoding で、重いモデルの前に軽いモデルを走らせて高速化している MoE(Mixture of Experts)モデルでは、どの expert をどう扱うかが性能に直結する mlock や run-time-repack みたいな地味な最適化が、古いマシンではかなり効く 便利な黒箱ツールではなく、細かいフラグを理解して使い分けることが重要 「10年前のXeonで最新級のLLMを動かす」と聞くと、正直かなり無茶に見えます。 でも今回の元記事は、その“無茶”をちゃんと工夫で押し切る話で、かなり面白いです。私はこういう、性能の限界をソフトウェアでねじ伏せる系の話が大好きです。ロマンがあります。 舞台は、2016年製の Intel Xeon E5-2620 v4 を積んだ再生サーバー。 メモリはなんと **128GB DDR3
papoo.work