世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

UnslothとNVIDIAでLLM学習を速くする方法を解説

この記事のキーポイント

UnslothがNVIDIAと協力し、LLMのfine-tuningを約25%高速化した
主な改善は3つ
- Packed sequence metadataのキャッシュで 14.3% 高速化
- Double-buffered async gradient checkpointingで 8% 高速化
- MoE routingの見直しで gpt-ossの学習が15% 高速化
しかも、これらは精度低下なしで実現されている
すでにUnslothの高速化に加えて効くので、かなり“うまい上積み”だと思う
RTX laptop、data center GPU、DGX Sparkなどでは自動で有効化される

まず何が起きたのか

Unslothのブログ「How to Make LLM Training Faster with Unsloth and NVIDIA」は、かなり実践的でおもしろい記事です。ざっくり言うと、NVIDIAと一緒にLLM学習のボトルネックを3つ潰して、さらに速くしたという話です。

ここで重要なのは、ただ「GPUを速いものにした」わけではないことです。
やっているのはもっと地味だけど効く仕事、つまり:

無駄な再計算を減らす
CPUとGPUの待ち時間を減らす
ルーティング処理のムダを減らす

こういう改善です。個人的には、こういうアルゴリズムとシステムの両方をいじって速くする話がいちばん面白いです。派手さはないけど、効き方が本物だからです。

しかも今回の改善は、Unslothがもともと持っていた2〜5倍の高速化に“さらに上乗せ”される形です。ここ、かなり大きいです。

1. Packed sequence metadataをキャッシュして無駄を消す

そもそも packed sequence って何？

LLMの学習では、長さの違う文章をまとめてGPUに流します。
そのとき、短い文章を無理やり同じ長さまで引き伸ばすと、padding tokenという“空白”が増えて無駄になります。

そこで使うのが packed sequence です。
複数の短い例を連結して、1本の長い列として扱います。これでpaddingを減らせます。

でも、ここで新しい問題が出ます。
「元の文章がどこからどこまでだったか」を、モデルがちゃんと知っていないといけないからです。

そのために必要なのが、たとえば以下の情報です。

sequence lengths
cumulative sequence offsets（cu_seqlens）
max sequence length
attention maskの構造

何がムダだったのか

UnslothとNVIDIAが見つけたポイントは、このメタデータは1回のforward passの中では全レイヤーで同じだということです。

つまり、Transformerが何層もあるなら、本来は

1回作って
それを全部の層で使い回せばいい

わけです。

ところが、実際には層ごとに同じ情報を何度も組み立て直すことがありました。
これはかなりもったいない。しかも単なる計算コストだけでなく、GPUとCPUの同期が入ってしまうことがあるのが痛いです。GPUが「ちょっと待って、CPUから情報が来るまで止まるね」となるわけで、これが積み重なると地味に効きます。

改善内容

そこでやったのが、

packed sequenceのメタデータ
SDPA packed mask
xFormers block mask

など、再利用できる情報をキャッシュすることです。
要するに、同じ材料を毎回こね直さず、一度作ったものを使い回すようにした、ということです。

こういう改善って、地味なんですが本当に効きます。
LLMの学習速度は「大きな演算」だけで決まるわけではなく、細かい段取りの悪さでもかなり削られるからです。

ベンチマーク結果

Qwen3-14BのQLoRA SFTでは:

forward: +43.3%
backward: +5.8%
per batch: +14.3%

特にforwardが大きく伸びています。
これは、メタデータやmaskの準備がforward側で何度も出てくるからです。

個人的には、この数字はかなり納得感があります。
「学習そのもの」より「準備作業」を削ると、forwardで効きやすいんですよね。

2. Double-buffered checkpointingでコピー待ちを隠す

checkpointingって何？

activation checkpointing は、メモリを節約するための定番技術です。
普通はforward中の中間結果（activation）をたくさん保存しますが、それを全部持っておくとVRAMを食います。

そこでcheckpointingでは、必要なところだけ保存して、backwardのときに再計算します。
メモリは節約できるけど、そのぶん計算が少し増える、というトレードオフです。

これは大きいモデルではとても有効です。
ただし問題は、保存しなかったactivationをどうやってbackward時にGPUへ戻すかです。

1本のバッファだと待ちが発生する

Unslothのsmart checkpointingでは、activationをpinned CPU memoryに置いておき、必要になったらGPUにコピーします。
ここでまずいのが、1つのバッファをコピーと計算で共用すると、次のような順番になりやすいことです。

CPU→GPUコピー
コピーが終わるのを待つ
backward計算
次のコピー

つまり、コピーと計算が交互に順番待ちになってしまうんです。
これではせっかくGPUが強くても、待ち時間が目立ってしまいます。

2本のバッファで重ねる

そこで使うのが double buffering です。
バッファAでbackwardをしている間に、バッファBへ次のactivationを先読みしておく。終わったら役割を入れ替える。これでコピーと計算を重ねることができます。

もちろん、完全に重なるわけではありません。でも、待ち時間をかなり隠せます。

こういうのは、いかにもシステム最適化らしい改善です。
計算そのものを減らすのではなく、**“待つ”という無駄を見えなくする**のがうまいです。

ベンチマーク結果

NVIDIA B200 Blackwell GPUでの大きめdense modelの結果はこうです。

8B: 0.3739 → 0.4053 steps/s、**+8.40%**
14B: 0.2245 → 0.2395 steps/s、**+6.70%**
32B: 0.1979 → 0.2070 steps/s、**+4.61%**

メモリ増加も比較的小さめです。

8B: +0.37 GB
14B: +0.47 GB
32B: +0.23 GB

lossもほぼ変わっていないとのことなので、速くしたのに学習の中身は変えていないのがポイントです。

個人的には、この「追加のVRAMは少しだけ、でも効き目はちゃんとある」というバランスがかなり良いと思います。
実運用では、速さだけでなくメモリの余裕も大事なので。

3. MoE routingでもう少し賢くする

MoEって何？

MoE（Mixture of Experts） は、モデルの中に複数の“専門家”を持たせて、入力ごとに使う専門家を切り替える仕組みです。
全員を毎回フル稼働させるのではなく、必要な人だけ呼ぶイメージです。

うまくハマると効率が良いのですが、ルーティング処理がややこしくなります。

何が遅かったのか

記事では、PyTorchベースのGPT-OSSのMoEパスで、各expertにどのtokenを送るかを調べる処理が重かったと説明しています。

素朴な実装だと、expertごとに

torch.where(router_indices == expert_idx)

みたいなことを繰り返してしまうことがあります。
でもこれ、expertの数だけ動的な問い合わせが走るので、無駄が増えやすいです。しかもデータ依存なので、CPU-GPU同期っぽいコストが見えにくく出ることがあります。

改善内容

より良いやり方は、まとめて一気に処理することです。

expert assignmentを全部平坦化
expert IDでstable sort
bincount を1回使って各expertのtoken数を数える
offsetを作る
expertごとにsliceする

要するに、1回でまとめて整列してから切り分けるやり方です。
こういう改善は、地味だけど「ちゃんとプログラムしてるなあ」と感じます。動くコードと速いコードは別物、というやつですね。

ベンチマーク結果

gpt-ossのtrainingでは、これで15%高速化したとのことです。

MoEは本質的に“分岐の多い仕組み”なので、こうしたルーティングのムダが効きやすいのだと思います。

この記事を読んで感じること

正直、今回のブログはかなり好印象でした。
理由は、単に「速くなりました」と言うだけではなく、なぜ速くなるのかをかなり丁寧に説明しているからです。

特に良いのは、各改善について

どういうボトルネックがあったのか
何を変えたのか
その結果どれくらい速くなったのか
数字のつじつまは合うのか

まで追っている点です。こういう記事は、読んでいて信頼しやすいです。

また、今回の改善はすべて「魔法」ではありません。
どれも、

同じものを何回も作らない
コピーと計算を重ねる
まとめて処理して動的な問い合わせを減らす

という、かなり王道の最適化です。
でも、王道だからこそ強い。LLMは巨大なので、こうした“細かい無駄”が積み重なると、最終的に大きな差になります。

個人的には、こういう改善は今後もかなり伸びしろがあると思います。
モデルが大きくなるほど、GPUの演算能力だけでなく、周辺の段取りがボトルネックになりやすいからです。

まとめ

UnslothとNVIDIAは、LLM学習をさらに約25%高速化した
packed sequenceのメタデータをキャッシュして、無駄な再構築を削減
checkpointingではdouble bufferingでコピー待ちを隠し、VRAM増加を抑えつつ高速化
MoE routingではまとめて処理することで、gpt-ossの学習を15%改善
どれも精度を落とさず、実運用にすぐ効きそうな改善だと感じる

参考: How to Make LLM Training Faster with Unsloth and NVIDIA

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ