たった200ポンドでデータセンターGPUをPCに突っ込んで、ローカルLLMを爆速化した話
著者はすでにRTX 4080を持っていたが、ローカルLLM用にはVRAM(GPUのメモリ)が足りなかった そこで中古のTesla V100 SXM2 16GBを約£150で購入し、PCIe変換アダプタを約£50で追加 合計約£200で、16GB + 16GB = 32GBのVRAM環境を実現 2枚のGPUにモデルを分散させ、27B規模のLLMを約32 tok/sで動かしている データセンター向けGPUなので冷却ファンが爆音だったが、配線を工夫して静音化に成功 ソフト面ではNixOSがかなり役立ったが、古いGPU対応のためにドライバやCUDAのバージョン調整が必要だった Qwen3.6-27B-MTPは性能面でもかなり強く、ローカル実行でも最新クラウドモデルと比較できるレベルだと著者は述べている この記事、かなり好きです。理由は単純で、「お金をかければ解決する問題」を、中古パーツと少しの工夫でねじ伏せているからです。 著者はもともとRTX 4080を持っていました。16GBのVRAMは、ゲーム用途なら十分です。でも、最近の大きめのLLMをローカルで動かそうとすると、16GBでは足
papoo.work