世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

GoogleのTurboQuantとは何か？KV cache圧縮を「3bit級」で実現する新しい発想をわかりやすく解説

キーポイント

TurboQuantは、Googleが公開した新しいcompression / quantizationのための algorithmic suite（アルゴリズム群）
対象は LLM と vector search engine。特にRAGで重要な仕組みの効率化に効く
うれしいポイントは、retrainingなしで、accuracyを落とさずに大幅圧縮を狙っていること
圧縮の流れは PolarQuant → QJL の2段階
1段目で大きく圧縮し、2段目で残ったbias（偏り）を取り除く、という役割分担が面白い
理屈がかなり数学寄りで、単なる実装テクニックではなく理論的な裏付けを重視している点が重要

そもそも何の記事？

この記事は、Googleが最近発表した TurboQuant という新しい圧縮技術を紹介しながら、とくに KV cache compression の仕組みを説明しています。

ざっくり言うと、LLMやベクトル検索は賢いけれど、巨大なメモリを食います。
その中でも厄介なのが KV cache です。

KV cacheは、ざっくり「計算済みの中間結果を置いておく高速メモ帳」みたいなものです。
LLMが文章を1トークンずつ生成するとき、毎回ぜんぶを計算し直すと遅すぎるので、過去の情報を覚えておくわけです。

でもこのメモ帳、長文になればなるほどどんどん大きくなります。
つまり、長い文脈を扱いたいほどメモリがきつくなる。ここがLLMの実運用でかなり大きなボトルネックです。

正直、この問題は「AIが賢くなるほど、周辺のインフラがしんどくなる」という典型例だと思います。モデル本体の性能だけでなく、こういう地味な圧縮技術が効いてくるのが面白いところです。

TurboQuantは何がすごいのか

元記事によると、TurboQuantは large language models と vector search engines を圧縮するための新しいアルゴリズム群で、accuracyを損なわずにキャッシュメモリ消費を 3 bits まで下げられるとされています。

ここで言う「3 bits」は、かなり強烈です。
普通、データ圧縮は「小さくしたら精度が落ちる」というトレードオフがつきものです。ところがTurboQuantは、その常識をかなり押し返そうとしている。ここが一番の見どころだと思います。

しかも、retraining不要というのが実務的に大きいです。
学習済みモデルをもう一回育て直すのは、コストも時間も重い。だから「後から差し込める圧縮技術」は、現場ではかなり魅力的です。

背景にある問題：従来のquantizationは便利だけど、クセがある

元記事では、従来の vector quantization (VQ) には副作用があると説明しています。
quantizationとは、簡単に言えば「高精度な数値を、少ない情報量で表すこと」です。たとえば、細かい小数をざっくり丸めて保存するイメージです。

ただし、従来方式には次のような弱点があります。

memory overhead が出る
圧縮したいのに、量子化のための追加情報を持たないといけないことがある
小さなブロックごとに full-precision quantization constants を計算する必要がある
これは地味に重い
圧縮したはずなのに、結局その補助情報で得を食いにくい

要するに、「圧縮したいのに、圧縮のための付属品が邪魔をする」わけです。
このあたり、かなり“あるある”な工学の悩みだなと思います。

TurboQuantの2段階構成：PolarQuant と QJL

TurboQuantの核心は、2段階で圧縮するところです。

1. PolarQuant

最初の段階では、ベクトルを polar coordinate system に写し替えます。
polar coordinates は、ふつうの x-y 座標ではなく、半径と角度で位置を表す方法です。

この記事では、この変換によって次のような効果があると説明されています。

データの形が扱いやすくなる
extra quantization constants を保存しなくてよくなる
結果として memory overhead を減らせる
各座標がほぼ独立に扱えるようになるので、scalar quantizer を適用しやすい

要するに、まずデータの見た目を整理して、圧縮しやすい形に整えるわけです。
個人的には、ここがかなり賢いと思いました。いきなり無理やり削るのではなく、「削りやすい形に並べ替える」発想だからです。

2. QJL

2段階目は QJL (Quantized Johnson-Lindenstrauss) です。
役割は、1段目で残った bias や hidden errors を取り除くことです。

ここで出てくる Johnson-Lindenstrauss Transform は、ざっくり言うと「高次元データを低次元に押しつぶしても、距離関係をなるべく保つ」ための数学的手法です。
元記事では、QJLが残差に対して 1-bit の最小限の圧縮を行い、符号ビット（+1 / -1）に近い形でエラーをチェックする、と説明しています。

つまり、

PolarQuantで大きく圧縮する
QJLで残ったズレを補正する

という二段構えです。

この分担はかなり気持ちいいです。
圧縮って、どうしても「大胆に削る」と「正確さを保つ」がぶつかりやすいのですが、TurboQuantはその役割を分けている。設計として美しい、という印象があります。

なぜbiasがそんなに大事なのか

元記事では、quantizerを mean-squared error (MSE) だけで最適化すると、inner product の推定に hidden bias が入る、と述べています。

inner product は、ベクトル同士の“相性”や“向きの近さ”を見る計算です。
LLMのattentionでは、これがまさに重要になります。attentionは「どの情報に注目するか」を決める仕組みなので、ここがズレると生成品質に響きやすい。

つまり、単に数値を小さくできればいいわけではなく、attention score を正しく保てるか が本丸です。
ここをきちんと見ているのが、TurboQuantの面白いところだと思います。

PolarQuantは何をしているのか

元記事によると、PolarQuantでは random rotation を使ってデータベクトルを回転させます。
これにより、各座標の分布が扱いやすい形になり、特に Beta distribution のようなコンパクトな分布に近づくと説明されています。

少し難しく聞こえますが、要するにこうです。

データを少し回して見やすくする
各成分が独立っぽくなる
だから成分ごとに素直に圧縮しやすくなる

さらに、PolarQuantはベクトルを Cartesian coordinates ではなく、radius-angle pair で扱うので、正規化のような余計な準備作業を減らせる、というのがポイントです。

ここはかなり実装寄りの話にも見えますが、根っこは「データの幾何を整えると、圧縮がうまくいく」という発想です。
理屈としてもきれいだし、実際のシステムでも効きそうだなと思います。

QJLはどうやって残りのズレを消すのか

QJLの役目は、PolarQuantで残った誤差を拾って、unbiased estimator に近づけることです。

元記事では、この段階で残差に対して 1-bit compression をかける、と説明されています。
1-bitというのは、たった1つの符号情報だけで表すイメージです。かなり極端ですが、そこに意味がある。圧縮しすぎることで、かえって“ズレの構造”をシンプルに捉えられるわけです。

この仕組みの肝は、

残差の距離関係を保つ
余計な偏りを消す
attention score の精度を守る

という点にあります。

正直、ここはかなり数学の匂いが強いです。でも逆に言えば、「なんとなく速い」ではなく「なぜ速くて、なぜ精度が落ちにくいのか」 を説明できるのは強い。こういう理論ベースの技術は、長く生き残りやすいと思います。

この記事を読んで印象的だったところ

個人的に一番おもしろかったのは、TurboQuantが単なる“軽量化の小技”ではなく、圧縮の理屈そのものを再設計しているところです。

圧縮技術って、世の中にはたくさんあります。
でも多くは「とにかく削る」「とにかく丸める」という発想に寄りがちです。TurboQuantはそこに対して、

先に形を整える
次に誤差を補正する
理論的に bias を潰す

という、かなり筋のいい構造を作っています。

もちろん、元記事は技術紹介であって、実際のあらゆる現場で万能と断言しているわけではありません。
ただ、LLMの運用コストを本気で下げたいなら、こういう発想はかなり重要ではないかと思います。

まとめ

TurboQuantは、Googleが出した新しい compression / quantization のアルゴリズム群で、LLMやvector search engineのメモリ負荷をかなり下げることを狙っています。

ポイントは、

PolarQuant で圧縮しやすい形に整える
QJL で残った bias を消す
accuracyを保ちつつ、3-bit級の効率を目指す

という流れです。

AIは「モデルが賢いか」だけではなく、「その賢さを安く・速く使えるか」が本当に大事です。
TurboQuantは、その裏側を支えるかなり本質的な技術だと感じました。派手さはないけれど、こういう基盤技術が一番効く。そういうタイプの話として読むと、かなり面白い記事です。

参考: Effective KV Compression with TurboQuant - MachineLearningMastery.com

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ