KVキャッシュの画期的な圧縮技術「TurboQuant」
今回発表されたTurboQuantは、このKVキャッシュのメモリ使用量を画期的に削減できる技術だ。Googleによれば、NVIDIA H100 GPUを使った試験環境において、KVキャッシュのメモリ占有量を最大6分の1に圧縮し、応答速度が最大8倍が向上したとする。
しかも圧縮による知能(精度)の低下はほとんど発生しないという。まさに、「魔法のような」テクノロジーだ。
このことは、iPhoneやiPadなどのメモリ容量が限られたデバイス上でLLMを動かすうえで極めて重要だ。SiriやApple Intelligenceなどが高度なアシスタント(エージェント)として機能するためにはより賢いLLMが必要だが、それはより多くのKVキャッシュが求められる。

AppleとGoogleの提携が示す意味
そして2026年1月、GoogleはAppleが今後のAI基盤として「GoogleのAIモデル『Gemini』とその基盤技術に対し、数年間にわたる提携契約を結んだ」と発表した。詳細は以下の記事を確認してほしい。
「AppleがGoogleと提携した理由。SiriやApple Intelligenceはどう変わる? Appleシリコンへの技術的影響を読み解く」
その中では、GoogleのGeminiモデルが「2026年に予定されているよりパーソナライズされたSiriをはじめ、将来のApple Intelligence機能の基盤として活用される」とされている。
つまり、今後さらに本格的なLLMがAppleデバイス上で動くようになれば、その処理にはより多くのメモリが必要になる。そこで重要になるのが、この「TurboQuant」をはじめとするさまざまな圧縮技術というわけだ。
Appleは従来より、保持すべきKVを効率的に管理するEpiCache、KVをストレージに待避するKVSwap、対話の再開を高速化するPersistent Q4など、LLMを効率的に動かすためのさまざまな技術を開発してきた。
そこにメモリ利用効率と処理速度を大きく向上させるGoogleのTurboQuantが加わることで、iPhoneやiPad、あるいはMacBook Neoのような搭載メモリ容量の限られたデバイスでも、高性能なLLMを軽快に動かせるようになることが期待できる。

ただし、それでもiPhoneなどのデバイス上だけでは難しい処理は存在する。その場合に使われるのがパーソナルクラウドコンピュート(PCC:Personal Cloud Compute)だ。次のページで詳細を解説する。




