Googleの研究開発チームが2026年3月24日付けのブログで公開した「TurboQuant」は、LLM(大規模言語モデル)の大幅なリソース削減を実現する画期的なテクノロジーだ。
その情報解禁後、高騰していたメモリのスポット価格が一時急落するなど、業界に激震が走った。この技術がAppleの今後のAI戦略にどのような影響を及ぼすのか、紐解いてみよう。
LLMの“対話の記憶”を支える「KVキャッシュ」とは
「TurboQuant」はChatGPTやGeminiに代表されるLLM(大規模言語モデル)が使用する「KVキャッシュ」を圧縮し、その動作を軽快にするテクノロジーだ。そこでまず、この「KVキャッシュ」について解説しよう。
ユーザがLLMと対話しているとき、その返答時に単語が順番に出てくるのを見た覚えがあるだろう。LLMは次の単語を予測するとき、その裏側では「それまでに生成した全単語」を毎回すべて読み直している。
しかし単純に過去のすべての単語を読み直していると、対話のやり取りが長くなればなるほど計算量が膨大になり、LLMの動作がどんどん重くなってしまう。この問題を解決するために“同じものを毎回読み直す手間”を省くのが、KVキャッシュの役割だ。
LLMの内部では、各単語が Q(Query)、K(Key)、V(Value)という3つのベクトルに変換されて処理される。KVキャッシュは、このうち過去の全単語に相当するK(Key)とV(Value)をメモリ上に展開しておき、これを再利用することで計算量を大幅に削減。そして続く単語の生成を高速化する。
メモリを圧迫するKVキャッシュの深刻な弱点
ところがこのKVキャッシュにはデメリットがある。それは対話が長くなればなるほどKVキャッシュのサイズが大きくなり、メモリを圧迫するという問題だ。
iPhoneやiPadなどのメモリ容量が限られたデバイスでは、増大し続けるKVキャッシュを常にメモリ上に置いておくことは難しい。
このためデバイス(ローカル)上で動くLLMではKVキャッシュのサイズに制限が設けられ、古いKVキャッシュは削除されていく。そしてLLMは“過去に何を話していたか”を忘れてしまう。
だがこれはユーザに寄り添うAIアシスタントとしては問題だ。「昨日話した件だけど…」と声をかけても、その返答が「覚えていません」では困る。

また、LLMが複数のタスクを処理している場合には、各タスクごとにKVキャッシュが必要になるため、さらにメモリが圧迫される。
たとえば、メールを書きながらスケジュールの調整をする、会話を聞き取って翻訳する。要約しながら壁打ちをする、プランを複数考える、といったケースでKVキャッシュが複数必要になることが多い。
KVキャッシュは便利だが、その代償はあまりにも大きい。この根本問題に、Googleは「TurboQuant」というアプローチで挑もうとしている。次ページからは、その詳細を解説していこう。




