Googleが「TurboQuant」を発表——LLMの圧縮効率を根本から刷新

Google Researchの研究者Amir Zandieh氏とVahab Mirrokni氏(Google Fellow・VP)のチームは、大規模言語モデル(LLM)とベクトル検索エンジンの圧縮効率を飛躍的に向上させる新しい量子化アルゴリズム群「TurboQuant」を発表した。本手法はICLR 2026での発表が予定されている。

なぜ「ベクトル圧縮」が重要なのか

現代のAIモデルは、テキストや画像の意味を高次元ベクトルとして表現する。このベクトルは情報表現力が高い一方、メモリを大量に消費するという課題を抱えている。特に問題となるのがKV(Key-Value)キャッシュだ。LLMが推論を行う際、過去のトークン情報を高速アクセスできる形でキャッシュしておく仕組みだが、モデルが大規模化するにつれてこのキャッシュがボトルネックになりやすい。

従来のベクトル量子化(Vector Quantization)技術はデータを圧縮できるものの、「量子化定数(Quantization Constants)」をフル精度で保持する必要があるため、1〜2ビット分のオーバーヘッドが生じていた。圧縮しているのに余分なコストが発生するという本末転倒な問題だ。

TurboQuantの仕組み:2段階で誤差をゼロに近づける

TurboQuantはこの問題を、以下の2ステップで解決する。

① 高品質圧縮(PolarQuantメソッド) まずデータベクトルをランダムに回転させる。この一手がベクトルの幾何学的構造を単純化し、標準的な量子化器を各次元に適用しやすくする。音声の量子化やJPEG圧縮と同様の発想だが、回転という前処理を挟むことで精度を大幅に向上させている。

② 残差誤差の除去(QJLアルゴリズム) 第1段階で生じた微小な誤差に対し、わずか1ビットの残差圧縮を適用する。これが「QJL(Quantized Johnson-Lindenstrauss)」と呼ばれる手法で、Johnson-Lindenstrauss変換を活用してバイアスを数学的に排除する。結果として、アテンションスコアの精度が大幅に改善される。

ゼロオーバーヘッドを実現する「QJL」

QJLの核心は、Johnson-Lindenstrauss変換によって高次元データをより低次元に写像しながら、データ点間の本質的な距離・関係を保持するという数学的性質にある。従来手法が量子化定数のストレージを必要としていたのに対し、QJLはこのオーバーヘッドを不要にする。

実用的な意義

TurboQuantの精度ゼロロス圧縮は、以下の場面で特に大きな恩恵をもたらすと期待されている。

  • LLMの推論コスト削減:KVキャッシュの縮小によりメモリ使用量を抑え、より大きなバッチサイズや長いコンテキスト長を扱えるようになる
  • 大規模ベクトル検索の高速化:類似検索のスループット向上により、RAG(Retrieval-Augmented Generation)などの検索拡張型AIシステムの性能改善が見込まれる
  • エッジ・オンデバイスAI:メモリ制約の厳しい環境でのLLM展開が現実的になる

PolarQuantはAISTATS 2026でも発表予定であり、Google Researchはこれら3つのアルゴリズム(TurboQuant・QJL・PolarQuant)を組み合わせることで、圧縮技術の新たなスタンダードを確立しようとしている。

AIモデルの大規模化が続く中、推論効率の改善は日本企業のAI導入コスト削減にも直結する重要なテーマだ。TurboQuantの実用化の動向に注目したい。


元記事: TurboQuant: Redefining AI efficiency with extreme compression