世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Gemma 4を最大3倍速くする「Multi-Token Prediction」って何がすごいの？

キーポイント

GoogleがGemma 4向けに、Multi-Token Prediction（MTP）drafters を発表
これはspeculative decoding を使って、推論時の待ち時間を減らす仕組み
条件によっては、最大3倍の高速化を実現するとしている
出力品質や推論のロジックは落とさないとGoogleは説明している
LiteRT-LM、MLX、Hugging Face Transformers、vLLM など複数の環境で効果を確認
生成AIの「賢さ」だけでなく、速さと実用性がますます重要になっている、という話でもある

この記事で何が起きているのか

Googleが、Gemma 4ファミリー向けに Multi-Token Prediction（MTP）drafters を公開しました。
ざっくり言うと、LLM（大規模言語モデル）の返答を速くするための補助役です。

Gemma 4は、Googleが「これまでで最も高性能なopen model」として出したモデル群で、公開から数週間で6000万回以上ダウンロードされたと記事では述べています。かなりの注目度ですね。
そのGemma 4を、さらに速く動かすのが今回の話です。

Googleの説明では、MTP draftersを使うことで、推論時のレイテンシ（待ち時間）を減らし、最大3倍の速度向上が見込めるとのこと。しかも、出力品質やreasoning logic（推論の筋道）を劣化させないとしています。

正直、ここはかなり面白いです。AIモデルは「賢い」だけでは足りなくて、実際にはどれだけ速く、どれだけ安定して使えるかが勝負になってきています。いくら高性能でも、返答が遅いと体験が一気に悪くなるので、こういう改善は地味に見えて実は本丸だと思います。

そもそも「推論が遅い」ってどういうこと？

LLMは、文章を1 tokenずつ生成します。
tokenは、ざっくり言うと単語より少し細かい文章の部品です。日本語でも英語でも、モデルは「次に来る言葉のかたまり」を1個ずつ予測して文章を作ります。

この仕組み自体は自然ですが、問題は速度です。
Googleの記事では、標準的なLLM inference（推論）はmemory-bandwidth bound、つまり計算よりもメモリの読み書きがボトルネックになりやすいと説明しています。

わかりやすく言うと、

モデルの重たいパラメータをVRAMから読み出す
それを使って次の1 tokenを作る
その繰り返し

という流れで、処理能力そのものより「データを運ぶ時間」が効いてしまうわけです。
だから、GPUが全部の力を出し切れず、待ち時間が増える。これはかなりもったいない。

speculative decoding で何をしているのか

今回のキモは speculative decoding です。
これは日本語にすると「先読みして仮に候補を作り、あとで本命モデルが確認する方式」と考えるとわかりやすいです。

仕組みはシンプルに言うとこうです。

重いtarget model が本命の出力を担当する
例: Gemma 4 31B など
その前に、軽いdrafter が先に複数の token を予測する
本命のtarget modelが、その予測をまとめて検証する
合っていればその分を一気に採用する

つまり、「1 tokenずつ真面目に確認」するのではなく、「小さな下書き役が先に案を出して、本番モデルがまとめてチェックする」感じです。

この発想、かなり賢いです。
人間でも、毎回ゼロから文章を1文字ずつ考えるより、下書きがあったほうが速いですよね。AIでも同じで、考えさせる回数を減らすのが効く。

Googleは、MTP draftersがidle compute（遊んでいる計算資源）を使って、重いモデルが1 token処理するより短い時間で、将来の複数 token を予測できると説明しています。
そして本命モデルが一括で検証するので、全体として高速化できる、という理屈です。

「速い」といっても、品質は大丈夫？

ここは当然気になるところです。
速くなる代わりに、答えが雑になったら意味がないので。

Googleの主張はかなりはっきりしていて、最大3xのspeedupを、出力品質やreasoning logicの劣化なしで実現するとしています。
もちろん、こういう性能主張は実際のワークロードやハードウェア条件で差が出るので、常に3倍ピッタリ出るわけではないはずです。そこは少し冷静に見たほうがいいでしょう。

ただ、重要なのは、今回の改善が単なる「圧縮」や「軽量化」ではなく、推論の流れを工夫して速くしている点です。
だから、モデルそのものを小さくするよりも、賢さを保ちながら体感速度を上げる方向に見えるのがいいところだと思います。

どこで効くのか

Googleは、速度向上を以下の環境でテストしたとしています。

LiteRT-LM
MLX
Hugging Face Transformers
vLLM

つまり、研究室だけの話ではなく、開発者が実際に触ることの多い実行環境で効果を見ているのがポイントです。
これはかなり実用寄りの発表です。

個人的には、この「理論だけで終わらず、開発現場での使いやすさを意識している」感じがGoogleらしいと思います。
AIの性能競争って、モデル単体のベンチマークだけでなく、どのフレームワークで、どのデバイスで、どれだけ気持ちよく動くかがだんだん重要になってきていますから。

なぜ今これが重要なのか

生成AIは、すでに「賢いかどうか」だけでは差別化しにくくなっています。
次の勝負は、かなりはっきり速度、コスト、応答性です。

たとえば、

チャットボットの返答が速い
モバイル端末でも待たされにくい
クラウド利用時のコストを抑えやすい
開発者がアプリに組み込みやすい

こういう要素は、実際の利用体験に直結します。
Gemma 4のMTP draftersは、まさにこの「速さの壁」に対する実践的な答えだと言えそうです。

特に面白いのは、速度改善が「雑になる」のではなく、speculative decodingで品質を保ちつつ近道するという設計思想にあることです。
これはAIの進化が、単純な「巨大化」だけではなく、賢い工夫で効率を上げるフェーズに入っていることを示しているように見えます。

率直に言うと、これは“地味に効く大ニュース”ではないか

最初に聞くと、「3倍速い下書きモデルです」といわれても、派手さはそこまでないかもしれません。
でも、実際のプロダクトやアプリで考えると、応答が3倍速いのはかなり大きいです。体感は別物になります。

しかも、LLMは今後ますます「長文を作る」「複雑な作業をさせる」「端末上で動かす」方向に広がるはずなので、推論効率の改善はどんどん重要になると思います。
個人的には、こういう裏側の高速化こそ、AIの使い勝手を本当に変える技術だと感じます。派手ではないけれど、現場では超重要です。

まとめ

Gemma 4向けのMulti-Token Prediction draftersは、
「重い本命モデル」と「軽い下書き役」を組み合わせて、推論を速くする仕組みです。

ポイントは、

最大3倍の高速化
品質を落とさない設計
実用的なフレームワークで動作確認済み
AIの速度改善を、推論アルゴリズムの工夫で実現している

というところ。

AIモデルの進化は、もはや「より賢く」だけではなく、より速く、より使いやすくへ向かっています。
Gemma 4のMTP draftersは、その流れをかなりわかりやすく示すニュースだと思います。

参考: Accelerating Gemma 4: faster inference with multi-token prediction drafters

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ