Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

MacBook Neoで高性能LLMが動く未来が来る? KVキャッシュを圧縮するGoogleの新技術「TurboQuant」の衝撃

著者: 今井隆

本ページはアフィリエイト広告を利用しています

MacBook Neoで高性能LLMが動く未来が来る? KVキャッシュを圧縮するGoogleの新技術「TurboQuant」の衝撃

Googleの研究開発チームが2026年3月24日付けのブログで公開した「TurboQuant」は、LLM(大規模言語モデル)の大幅なリソース削減を実現する画期的なテクノロジーだ。

その情報解禁後、高騰していたメモリのスポット価格が一時急落するなど、業界に激震が走った。この技術がAppleの今後のAI戦略にどのような影響を及ぼすのか、紐解いてみよう。

LLMの“対話の記憶”を支える「KVキャッシュ」とは

「TurboQuant」はChatGPTやGeminiに代表されるLLM(大規模言語モデル)が使用する「KVキャッシュ」を圧縮し、その動作を軽快にするテクノロジーだ。そこでまず、この「KVキャッシュ」について解説しよう。

ユーザがLLMと対話しているとき、その返答時に単語が順番に出てくるのを見た覚えがあるだろう。LLMは次の単語を予測するとき、その裏側では「それまでに生成した全単語」を毎回すべて読み直している。

しかし単純に過去のすべての単語を読み直していると、対話のやり取りが長くなればなるほど計算量が膨大になり、LLMの動作がどんどん重くなってしまう。この問題を解決するために“同じものを毎回読み直す手間”を省くのが、KVキャッシュの役割だ。

LLMの内部では、各単語が Q(Query)、K(Key)、V(Value)という3つのベクトルに変換されて処理される。KVキャッシュは、このうち過去の全単語に相当するK(Key)とV(Value)をメモリ上に展開しておき、これを再利用することで計算量を大幅に削減。そして続く単語の生成を高速化する。




メモリを圧迫するKVキャッシュの深刻な弱点

ところがこのKVキャッシュにはデメリットがある。それは対話が長くなればなるほどKVキャッシュのサイズが大きくなり、メモリを圧迫するという問題だ。

iPhoneiPadなどのメモリ容量が限られたデバイスでは、増大し続けるKVキャッシュを常にメモリ上に置いておくことは難しい。

このためデバイス(ローカル)上で動くLLMではKVキャッシュのサイズに制限が設けられ、古いKVキャッシュは削除されていく。そしてLLMは“過去に何を話していたか”を忘れてしまう。

だがこれはユーザに寄り添うAIアシスタントとしては問題だ。「昨日話した件だけど…」と声をかけても、その返答が「覚えていません」では困る。

LLMがメモリ上に展開する必要があるのは、主にモデル(重み)とKVキャッシュで、モデルは「知識」、KVキャッシュは「対話の記憶」と考えるとわかりやすい。モデルはそのサイズ(約1.5〜1.8GB)がほとんど変わらないのに対して、KVキャッシュは対話の長さ(コンテキスト)が長くなる(記録が増える)ほど多くのメモリを消費する。さらに、KVキャッシュの増大はメモリアクセスの増加によってLLMの応答速度を低下させてしまう。

また、LLMが複数のタスクを処理している場合には、各タスクごとにKVキャッシュが必要になるため、さらにメモリが圧迫される。

たとえば、メールを書きながらスケジュールの調整をする、会話を聞き取って翻訳する。要約しながら壁打ちをする、プランを複数考える、といったケースでKVキャッシュが複数必要になることが多い。

KVキャッシュは便利だが、その代償はあまりにも大きい。この根本問題に、Googleは「TurboQuant」というアプローチで挑もうとしている。次ページからは、その詳細を解説していこう。

マイナビ出版
\楽天ポイント4倍セール!/
楽天市場
×
×