WWDC(Worldwide Developers Conference)26のキーノートの最後、わずかな時間で告知された「Most powerful on-device model」は、オンデバイス、すなわちiPhoneやMacなどの端末上で動作する、よりパワフルなAIモデルだ。
その対応機種は最近の一部のモデルに限られており、Siri AIやApple Intelligeceの動作要件とは明らかに異なっている。では上位モデルにのみ対応する「Most powerful on-device model」とは何なのか、そこではどんな機能や性能が提供されるのか、詳しくみてみよう。

画像:Apple
「Most powerful on-device model」とはなにか?
この「Most powerful on-device model」が何を示すのかについて、WWDC26の中では明示されていない。しかし「Apple Machine Learning Research」の中で、「AFM 3 Core Advanced, our most powerful on-device model.(AFM 3 Core Advancedは当社の最も強力なオンデバイスモデルです)」と述べている。つまり「Most powerful on-device model」とは「AFM 3 Core Advanced」を指している、ということだ。
「AFM 3 Core Advanced」は、Appleの第3世代基盤モデル「Apple Foundation Models 3」の1つ。「Apple Foundation Models 3」は全5種で構成されており、このうちApple製品上に搭載される基盤モデルが2種類、クラウドサーバであるPCC(Private Cloud Compute)上の基盤モデルが3種類用意されている。

このうち「AFM 3 Core Advanced」を動かせるデバイスが、「Most powerful on-device model」に記載されたApple製品ということになる。その要件は搭載メモリが12GB以上であること、そしてAppleシリコンが一定以上の世代(製品によって変わる)である、ということだ。
この要件は「AFM 3 Core Advanced」を動かすためのメモリ領域が追加で必要になることと、その動作にNeural Engineにも一定以上のレベルが求められることを意味している。
「AFM 3 Core Advanced」に組み込まれた驚くべき技術
「AFM 3 Core Advanced」の要件を満たすApple製品でも、そのほとんどの処理は「AFM 3 Core」で行われる。つまり「AFM 3 Core Advanced」は“AFM 3 Coreと同時に使われる”モデル基盤だ。このためSiriやApple Intelligenceの動作環境を超える要件が求められる。
しかし「AFM 3 Core」が30億パラメータクラスの基盤モデルであるのに対して、「AFM 3 Core Advanced」は200億パラメータクラス(つまり大幅に賢い)の基盤モデルのため、そのままではデバイス上に常駐させることは不可能だ。
そこでAppleが「AFM 3 Core Advanced」で採用したのが、IFP(Instruction-Following Pruning)と呼ばれるテクノロジーである。これはモデル全体はSSD(NAND)に置いたまま、必要に応じてモデルの一部をメモリ(DRAM)上に移して(ルーティングして)実行する。
その際に「トークン単位」ではなく「プロンプト単位」でルーティングを行うのがポイントだ。これによって完全オフラインかつプライバシーを確保した状態で高度なAI処理を行うことができる。

画像:Apple Machine Learning Research
「AFM 3 Core Advanced」が提供する「アドバンテージ」とは
WWCD26のキーノート内で発表された「AFM 3 Core Advanced」の能力は大きく分けて2つある。1つは「Expressive Voices」で、これはSiriなどの音声合成品質を大きく向上させるものだ。具体的には下記の改善点が挙げられている。
・General Voice: 案内や読み上げが自然に聞こえる
・Conversational Voice: 会話がより人が話しているイメージに近くなる
・Cadence: 間の取り方やリズムが自然になる
・Intonation: 話し方に抑揚がついて単調さが減る
・Expressiveness: 感情やニュアンスが乗りやすくなる
・Clarity: 聞き取りやすさが改善される
・Naturalness: 機械的な読み上げ感が減って自然に聞こえるようになる
実際の聞こえ方については、英語ではあるが「Apple Machine Learning Research」の中にサンプル音声が置かれているので、実際に聞き比べることができる。
もう1つは「High-Accuracy Dictation」で、これは人の会話を理解して言語化(テキスト化)する能力を大きく向上させるものだ。具体的には…
・Punctuation: 句読点が自然な位置に入る
・Casing: 大文字小文字の使い分けが正確になる
・Layout: 段落や見た目が自然になる
・Meaning Capture: 言いたいことの意味が変わりにくい
・Disfluency Handling: 「え〜」や「あの〜」といったフィラー(口癖)や会話の詰まりをうまく処理する
・Style: 文章が自然になる
といったように、より人が「自然でわかりやすい」と感じられる文章に変換されるようになる。
つまり「Expressive Voices」と「High-Accuracy Dictation」の組み合わせによって、Siriなどとの対話が自然で正確なものになり、より人と話しているイメージに近くなる、という内容だ。

画像:Apple
「AFM 3 Core Advanced」の現状と、将来への展望
ここまで読んで「それだけ?」と思った人がいるかも知れない。そう、キーノートで公表された「AFM 3 Core Advanced」の「アドバンテージ」は、音声合成と音声認識といった音声処理に関するものだけだったからだ。
しかし、200億パラメータの基盤モデルの役割がこれだけとは思えない。Appleは「AFM 3 Core Advanced」が「Natively Multimodal(ネイティブ・マルチモーダル)」アーキテクチャであることを明言した。つまり文章・画像・音声・動画などの異なるデータを個別に変換することなく、「単一モデルで統合的に理解し処理する仕組み」と説明している。
そこから判断すると、「AFM 3 Core Advanced」を活かした使い方が、今後新たに実装される可能性は高い。また「AFM 3 Core Advanced」の基盤モデル自体も、OSのアップデートに合わせて更新されることも十分考えられる。中でも期待されるのが、写真や画像の内容を「理解」する能力と、より「高度な言語処理」を可能とする能力の強化だ。

Appleは今後この取り組みをさらに発展させ、「ユーザが今やろうとしているタスクの複雑さに応じてアクティブにするパラメータの数やエキスパート(専門知識)を自動で最適化・拡張していく」方針を示した。おそらく2026年秋のOSメジャーアップデートでは、より多くの魅力的な機能がアクティブになるのではないだろうか。

おすすめの記事
著者プロフィール








