Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

WWDC26で発表された高性能AIモデル、「Most powerful on-device model」とは何か

著者: 今井隆

本ページはアフィリエイト広告を利用しています

WWDC26で発表された高性能AIモデル、「Most powerful on-device model」とは何か

画像:Apple

WWDC(Worldwide Developers Conference)26のキーノートの最後、わずかな時間で告知された「Most powerful on-device model」は、オンデバイス、すなわちiPhoneやMacなどの端末上で動作する、よりパワフルなAIモデルだ。

その対応機種は最近の一部のモデルに限られており、Siri AIやApple Intelligeceの動作要件とは明らかに異なっている。では上位モデルにのみ対応する「Most powerful on-device model」とは何なのか、そこではどんな機能や性能が提供されるのか、詳しくみてみよう。

6月9日(現地では6月8日)に開催された「WWCD26」のキーノート「inteoducing Siri AI and more」の1時間8分付近で公開された「Most powerful on-device model」。対象はiPhone AirとiPhone 17 Pro、M4以降と12GB以上のメモリを搭載するiPad。そしてM3以降と12GB以上(実際には16GB以上)のメモリを搭載するMacとされている。
「Most powerful on-device model」は、6月9日(現地では6月8日)に開催された「WWCD26」のキーノート「inteoducing Siri AI and more」の1時間8分付近で公開された。対象はiPhone AirとiPhone 17 Pro、M4以降と12GB以上のメモリを搭載するiPad。そしてM3以降と12GB以上(実際には16GB以上)のメモリを搭載するMacとされている。
画像:Apple

「Most powerful on-device model」とはなにか?

この「Most powerful on-device model」が何を示すのかについて、WWDC26の中では明示されていない。しかし「Apple Machine Learning Research」の中で、「AFM 3 Core Advanced, our most powerful on-device model.(AFM 3 Core Advancedは当社の最も強力なオンデバイスモデルです)」と述べている。つまり「Most powerful on-device model」とは「AFM 3 Core Advanced」を指している、ということだ。

「AFM 3 Core Advanced」は、Appleの第3世代基盤モデル「Apple Foundation Models 3」の1つ。「Apple Foundation Models 3」は全5種で構成されており、このうちApple製品上に搭載される基盤モデルが2種類、クラウドサーバであるPCC(Private Cloud Compute)上の基盤モデルが3種類用意されている。

「Apple Machine Learning Research」では、iPhoneやMacなどのデバイス上で動く「AFM 3 Core」と「AFM 3 Core Advanced」、そしてPCC上で動く「AFM 3 Cloud」、「ADM 3 Cloud」、「AFM 3 Cloud Pro」の5種類の基盤モデルが紹介されている。「AFM 3 Core Advanced」と「AFM 3 Cloud Pro」は、AFM 3で新たに加わった基盤モデルだ。
「Apple Machine Learning Research」では、iPhoneやMacなどのデバイス上で動く「AFM 3 Core」と「AFM 3 Core Advanced」、そしてPCC上で動く「AFM 3 Cloud」、「ADM 3 Cloud」、「AFM 3 Cloud Pro」の5種類の基盤モデルが紹介されている。「AFM 3 Core Advanced」と「AFM 3 Cloud Pro」は、AFM 3で新たに加わった基盤モデルだ。

このうち「AFM 3 Core Advanced」を動かせるデバイスが、「Most powerful on-device model」に記載されたApple製品ということになる。その要件は搭載メモリが12GB以上であること、そしてAppleシリコンが一定以上の世代(製品によって変わる)である、ということだ。

この要件は「AFM 3 Core Advanced」を動かすためのメモリ領域が追加で必要になることと、その動作にNeural Engineにも一定以上のレベルが求められることを意味している。

「AFM 3 Core Advanced」に組み込まれた驚くべき技術

「AFM 3 Core Advanced」の要件を満たすApple製品でも、そのほとんどの処理は「AFM 3 Core」で行われる。つまり「AFM 3 Core Advanced」は“AFM 3 Coreと同時に使われる”モデル基盤だ。このためSiriやApple Intelligenceの動作環境を超える要件が求められる。

しかし「AFM 3 Core」が30億パラメータクラスの基盤モデルであるのに対して、「AFM 3 Core Advanced」は200億パラメータクラス(つまり大幅に賢い)の基盤モデルのため、そのままではデバイス上に常駐させることは不可能だ。

そこでAppleが「AFM 3 Core Advanced」で採用したのが、IFP(Instruction-Following Pruning)と呼ばれるテクノロジーである。これはモデル全体はSSD(NAND)に置いたまま、必要に応じてモデルの一部をメモリ(DRAM)上に移して(ルーティングして)実行する。

その際に「トークン単位」ではなく「プロンプト単位」でルーティングを行うのがポイントだ。これによって完全オフラインかつプライバシーを確保した状態で高度なAI処理を行うことができる。

「Apple Machine Learning Research」では、「AFM 3 Core Advanced」がIFP(Instruction-Following Pruning)をどのように利用して、限られたメモリ上での実行を実現しているかを図で示している。IFPは常に必要となる重み(モデルの一部)を常駐させ、それ以外の重み(エキスパート)は必要に応じてメモリにルーティングして処理することで、全体で200億パラメータのうちメモリ上に置く重みを10〜40億パラメータまで削減する。
「Apple Machine Learning Research」では、「AFM 3 Core Advanced」がIFP(Instruction-Following Pruning)をどのように利用して、限られたメモリ上での実行を実現しているかを図で示している。IFPは常に必要となる重み(モデルの一部)を常駐させ、それ以外の重み(エキスパート)は必要に応じてメモリにルーティングして処理することで、全体で200億パラメータのうちメモリ上に置く重みを10〜40億パラメータまで削減する。
画像:Apple Machine Learning Research

「AFM 3 Core Advanced」が提供する「アドバンテージ」とは

WWCD26のキーノート内で発表された「AFM 3 Core Advanced」の能力は大きく分けて2つある。1つは「Expressive Voices」で、これはSiriなどの音声合成品質を大きく向上させるものだ。具体的には下記の改善点が挙げられている。

・General Voice: 案内や読み上げが自然に聞こえる
・Conversational Voice: 会話がより人が話しているイメージに近くなる
・Cadence: 間の取り方やリズムが自然になる
・Intonation: 話し方に抑揚がついて単調さが減る
・Expressiveness: 感情やニュアンスが乗りやすくなる
・Clarity: 聞き取りやすさが改善される
・Naturalness: 機械的な読み上げ感が減って自然に聞こえるようになる

実際の聞こえ方については、英語ではあるが「Apple Machine Learning Research」の中にサンプル音声が置かれているので、実際に聞き比べることができる。

もう1つは「High-Accuracy Dictation」で、これは人の会話を理解して言語化(テキスト化)する能力を大きく向上させるものだ。具体的には…

・Punctuation: 句読点が自然な位置に入る
・Casing: 大文字小文字の使い分けが正確になる
・Layout: 段落や見た目が自然になる
・Meaning Capture: 言いたいことの意味が変わりにくい
・Disfluency Handling: 「え〜」や「あの〜」といったフィラー(口癖)や会話の詰まりをうまく処理する
・Style: 文章が自然になる

といったように、より人が「自然でわかりやすい」と感じられる文章に変換されるようになる。

つまり「Expressive Voices」と「High-Accuracy Dictation」の組み合わせによって、Siriなどとの対話が自然で正確なものになり、より人と話しているイメージに近くなる、という内容だ。

WWDC26キーノートの「Siri AI」のセッションの中で、Siri Voiceを「私たちが耳にする感情豊かで人間らしい声や、優れた聴覚」と表現している。これはすなわち「AFM 3 Core Advanced」によってもたらされる「Expressive Voices」や「High-Accuracy Dictation」のことを示している。
WWDC26のキーノート内「Siri AI」のセッションで、Siri Voiceを「私たちが耳にする感情豊かで人間らしい声や、優れた聴覚」と表現した。これはすなわち「AFM 3 Core Advanced」によってもたらされる「Expressive Voices」や「High-Accuracy Dictation」のことを示している。
画像:Apple

「AFM 3 Core Advanced」の現状と、将来への展望

ここまで読んで「それだけ?」と思った人がいるかも知れない。そう、キーノートで公表された「AFM 3 Core Advanced」の「アドバンテージ」は、音声合成と音声認識といった音声処理に関するものだけだったからだ。

しかし、200億パラメータの基盤モデルの役割がこれだけとは思えない。Appleは「AFM 3 Core Advanced」が「Natively Multimodal(ネイティブ・マルチモーダル)」アーキテクチャであることを明言した。つまり文章・画像・音声・動画などの異なるデータを個別に変換することなく、「単一モデルで統合的に理解し処理する仕組み」と説明している。

そこから判断すると、「AFM 3 Core Advanced」を活かした使い方が、今後新たに実装される可能性は高い。また「AFM 3 Core Advanced」の基盤モデル自体も、OSのアップデートに合わせて更新されることも十分考えられる。中でも期待されるのが、写真や画像の内容を「理解」する能力と、より「高度な言語処理」を可能とする能力の強化だ。

現在公開されている「AFM 3 Core Advanced」のスペックと機能強化点から、今後期待できるAI処理性能の向上を予測してみた。たとえば、現在の「写真」アプリでの画像検索はお世辞にも「賢い」とはいえないが、オンデバイス基盤が写真や画像を認識する能力を大幅に向上すれば、ユーザの利便性は大幅に向上するはずだ。

Appleは今後この取り組みをさらに発展させ、「ユーザが今やろうとしているタスクの複雑さに応じてアクティブにするパラメータの数やエキスパート(専門知識)を自動で最適化・拡張していく」方針を示した。おそらく2026年秋のOSメジャーアップデートでは、より多くの魅力的な機能がアクティブになるのではないだろうか。

おすすめの記事

著者プロフィール

今井隆

今井隆

IT機器の設計歴30年を越えるハードウェアエンジニア。1983年にリリースされたLisaの虜になり、ハードウェア解析にのめり込む。

この著者の記事一覧