Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

AIエージェントの違いを整理。Claude、Codex、GenSpark、Geminiほか各サービスの動向。そしてAppleの狙いは?

著者: 大谷和利

本ページはアフィリエイト広告を利用しています

AIエージェントの違いを整理。Claude、Codex、GenSpark、Geminiほか各サービスの動向。そしてAppleの狙いは?

読者の皆さんもご存じのように、生成AIは、この数年で急速に進化してきました。これまで多くの人にとっての生成AIとは、質問に答えたり文章を作ったりする「賢いチャットボット」であり、検索エンジンの延長線上にある存在でしたが、今、その役割は、作業を代行する「AIエージェント」へと明らかに変わり始めています。

AppleのWWDC26のキーノートでも、各OSの次のメジャーアップデートで、エージェントのように振る舞ってさまざまな要求に応える「Siri AI」が加わることが発表されました。このエージェントは、単に答えを提示するだけではなく、実際に必要な情報を集め、タスクを分解し、複数のアプリを操作しながら仕事を進めることができます。

つまるところ、AIがデジタル空間の中で自律的に行動し、人間の代わりに作業を実行するようになりつつあるのです。「AIエージェント」は「エージェンティックAI」とも呼ばれ、その競争軸は、「AIがどこまで実際の仕事をこなせるか」という段階に達しています。その意味で、生成AIは「答える存在」から「働く存在」へと変わり始めました。

本記事では、AIエージェントをめぐる、業界の動きを俯瞰していきます。

AIエージェントをめぐる主要企業の動き

まず、AIエージェントをめぐる主な企業の動きを簡単にまとめました。

Anthropic:安全な「協働型AI」

AnthropicはClaudeシリーズを中心に、AI同士が役割を分担する「協働型AI」の可能性を追求しており、コーディングに特化したClaude Codeに続いて、一般業務向けの「Claude Cowork」によって、AIエージェント競争の先頭グループを走っています。

同社の最上位モデル「Claude Mythos Preview」は、ソフトウェアの脆弱性を自律的に大量発見できる高い能力を誇ります。ゆえに悪用の懸念もあり、AWS、Apple、Google、Microsoftなど約50社に限定提供されてきました。

その後、安全制御を施した一般向けバージョン「Claude Fable 5」が2026年6月9日に正式公開されましたが、リリースからわずか3日後、Fable 5の安全フィルタを迂回する手法(ジェイルブレイク)が発覚したとして、米国政府が国家安全保障上の輸出規制指令を発令。Anthropicはすべてのユーザへのアクセスを停止する事態となりました。

Anthropicは「同様の手法はGPT-5.5でも使えるのに、なぜFable 5だけが対象なのか」と反論しており、政府との交渉は続いています(2026年6月16日現在)。

AIエージェント競争の先頭グループを走るAnthropicは、Claude Coworkでオフィスワークの自動化を図ろうとしています。

OpenAI:「マルチエージェントAI」を目指す

OpenAIはこれまでChatGPTによってチャット系生成AIの普及を牽引してきましたが、現在はAIエージェントの研究開発を強く推し進めています。

その動きの一つとして注目されているのが、次世代パーソナルエージェントの開発を担う人材として、ピーター・スタインバーガーを採用したことです。スタインバーガーは、自律型AIエージェントのオープンソースプロジェクト「OpenClaw」の創設者として知られています。

なお、OpenClawは現在、独立したオープンソース財団に移管され、OpenAIの支援を受けながら開発が継続されていますが、同社のプロダクトではありません。

OpenAIは、Claude Codeのように自律的にプログラミングを行うAI「Codex」をリリースしています。これは、AIが指示を理解し、AI自身が作業を分解しながら実行する仕組みです。

さらに最近は、こうしたAIを複数組み合わせて役割分担させる「マルチエージェントAI」が注目されています。複数のAIがタスクを処理することで、精度が上がり、結果の妥当性も確認しやすくなるためです。

OpenAIは、同社のコーディングエージェントサービス「Codex」を企業が導入する際の伴走型支援プログラム「Codex Labs」も提供しています。

GenSpark:分野別に特化したAIエージェント機能を提供

GenSparkは、サービス開始当初から、検索、要約、ファクトチェック、資料作成などを組み合わせたエージェント的な使い方を前面に出してきました。

現在では、スライド、文書、画像、動画、コード、デザインなどを扱う「AIワークスペース」としての性格を強めており、複数の専門機能を統合して、ユーザの依頼に応じた成果物を作成する方向に進んでいます。

ほかの生成AIサービスでもプロンプト次第で似た作業はできますが、GenSparkの強みは、特定用途に合わせた機能があらかじめ整理されており、調査、資料化、コンテンツ制作といった作業を比較的少ない手順で実行できる点。ファクトチェックや資料作成を頻繁に行うユーザにとっては、汎用チャットAIというより、作業別エージェントを束ねた実務向けツールとして利用しやすいサービスになっています。

その簡便さから、筆者はファクトチェックにGenSparkを利用することが多いです。

様々な分野別のAIエージェントを揃えているGenSpark。実際には、この倍以上のAIエージェントがあります。

Google:デジタル環境のインターフェースへ

GoogleはGeminiを中心に、検索、ブラウザ、メール、ドキュメント、スプレッドシート、クラウド環境を横断する形でAI機能を組み込んでいます。特にGoogle WorkspaceやGemini Enterpriseでは、文書作成、データ分析、メール処理、ワークフロー自動化などをAIエージェントが支援する方向性が明確です。

Googleの強みは、ユーザが日常的に利用するデジタルサービスを幅広く押さえている点です。検索やGmail、ドキュメント、スプレッドシート、Google Drive、カレンダーなどにAIが組み込まれることで、AIは単独のチャットボットではなく、複数のサービスを横断して、作業を仲介する存在になりつつあります。これは、AIエージェントを「個別のアプリ機能」ではなく、「デジタル環境全体を操作する窓口」として位置づける動きといえるでしょう。

Googleが、「イントラネット検索、AIアシスタント、エージェント型プラットフォーム」として位置付けているGemini Enterprise。

Microsoft:業務ソフトの中で「働くAI」

Microsoftは「Copilot」をWord、Excel、PowerPointなどに組み込み、日常業務を半自動化しつつあります。完全な自律AIというより、人間とAIの共創を目指すものであり、企業のワークフローの中にAIを自然に組み込むことを重視しています。

同社のサティア・ナデラCEOは、2026年6月15日のXへのポストなどで「AI時代に重要なのは『最強のAIモデルを使うこと』ではなく、『自社の知識と経験をAIに学習させると共に、自分もAIから学び続ける独自の学習ループを持つこと』であり、それが企業の新たな競争優位と知的財産になる」という主旨のことを述べていますが、「人間と業務用アプリに組み込まれたAIの共創」は、この考え方に基づくものです。

Microsoftのサティア・ナデラCEOは、「人間と業務用アプリに組み込まれたAIの共創」についての自身の考えを、Xへのポストなどを通じて表明しました。

xAI:コーディングエージェントとPC操作AIで参戦

イーロン・マスク率いるxAIが開発したGrokも、エージェントAIへ本格参入し、コーディングエージェントの「Grok Build」を公開しました。

Grok Buildは、原稿執筆の時点ではSuperGrok とX Premium+プラン購読者向けのベータ版として提供され、最大8つのサブエージェントが並列動作し、実行前に計画を確認・承認できる「プランモード」や、MCPサーバとの互換性も備えています。xAIは、さらに「Grok Computer」と呼ばれるPC操作エージェントも開発中で、後述するrabbit DLAMと同様の「PCを直接操作するAI」を目指すものとして、今後の動向が注目されます。

最大8つのサブエージェントが並列動作してコーディングが行われるxAIのGrok Build。

OSへのAIの統合でエコシステムと開発環境を強化するApple

プライバシーを前提にしたエージェントAIを見据える

WWDC26のキーノートが、ほぼApple IntelligenceとSiri AIの話題に終始したように、Appleもユーザとアプリを仲介するエージェントとしてのAIを独自に構想しており、特に、利便性とプライバシーを高い次元で両立させることが強調されました。

特に注目されるのは「App Intents」フレームワークの拡充です。これはAIエージェントが実行できる操作をアプリ側が事前に申告・制限する仕組みであり、Apple流の慎重なセキュリティ設計を維持しながら自動化を実現しようとしています。

その根幹にあるのが、Googleとの深い技術協力のもとで開発されたApple Foundation Models(AFM 3)です。GoogleのGemini技術を参照・活用しつつも、Appleが独自に設計したモデルアーキテクチャを採用しており、ユーザデータはAppleにもGoogleにも渡らない設計が徹底されています。

そのうえで、ハードとソフトを統合的に開発しているAppleの強みを最大限に活かして、ユーザのパーソナルデータを利用したパーソナライズされた回答や作業が実現されるのです。

AI統合がAppleエコシステムを強化する

なお、AIにアイデアを自然言語で伝えてコードを生成させる手法全般は「バイブコーディング」と呼ばれますが、Appleはその発展形となる「エージェンティックコーディング」を提唱しています。これは、AIがプロジェクト全体の構造を把握したうえで、複数ファイルにわたる複雑なタスクを自律的に遂行する、より高度な技術です。

Appleは2026年2月リリースのXcode 26.3でAnthropicのClaude AgentとOpenAIのCodexを直接呼び出せる仕組みを実装し、さらにWWDC26発表のXcode 27ではGeminiを加えた3社のエージェントをすべてネイティブ統合するなど、ソフトウェア開発のプロセス全体にAIが関与する環境を急速に整えてきました。

そして、他社のようなクラウドAIの性能競争とは一線を画しつつも、Foundation Modelsフレームワークを第三者モデルプロバイダにも開放するという独自のアプローチを取っています。

また、比較的簡単なリクエストに瞬時に対応するオンデバイスのAI機能と、より複雑な処理を担当するクラウド上のPrivate Cloud Computeを組み合わせることで、必要以上に主張しないAIが、シームレスにOSを補完し、アプリを連係させ、日常的に役立つ存在になるという方向性を打ち出しました。これによって、サードパーティ製アプリを含めたエコシステム全体が強化され、Appleの製品基盤をより盤石なものへと進化させようとしているのです。

Appleは、AIがプロジェクト全体の構造を把握したうえで複数ファイルにわたる複雑なタスクを自律的に遂行する「エージェンティックコーディング」を提唱しています。

大規模言語モデルから大規模“アクション”モデルへ

上記のメジャーな企業以外にも、AIエージェント系の興味深い試みをしている企業として、ネイティブAIデバイスのrabbit r1を開発・販売しているrabbit inc.があります。

rabbit r1は当初からアプリやWebサービスをコントロールして実際の処理を行えるLAM(大規模アクションモデル)の実現を目指してきましたが、rabbitOS 2でその一端を垣間見られるDLAM機能が実装されました。

DLAMは、rabbit r1をMac/WindowsマシンにUSB ケーブルで接続し、Chromeまたは Edgeブラウザで専用サイトを開くだけで、特別な仮想マシンやソフトウェアのインストール、設定などをすることなく、音声やキーボード入力による指示でAIが必要なアプリを起動し、マウスとキーボードを動かすように画面を操作して作業を進めるというものです。


さらに、直近のrabbitOSのアップデートで、Claude Codeの遠隔操作もサポートされました。これは、r1上でClaude Codeそのものが動くわけではなく、コンピュータ上で動いているClaude Codeをr1から音声でリモート操作できる機能です。新しいClaude Codeセッションの開始や既存セッションへの再接続、ビルド状況や作業進捗の確認などが可能になります。ある意味で、rabbit r1はコンピュータ上で動く本格的なAIエージェントのリモコン機能も備えたといえるでしょう。

DLAMに対して「Appleの株価の過去6ヶ月の推移を調べて、Pagesで投資家向けのレポートを作り、PDFとして保存してメールに添付する」という指示を出すと、実際にYahoo! Financeのページを検索してデータを取得し、このようにPagesを開いてレポートを作成し始めます。DLAMが動いている様子は、筆者がYouTubeにアップロードした動画で確認できます(実行速度は実際よりも速めています)。

モバイルアプリ開発専門のバイブコーディングサービス

数あるバイブコーディングツールの中で、iOSおよびAndroid向けのモバイルアプリ開発に特化したサービスとして注目される存在が、Rorkです。ほかのWebアプリ向けツールとは異なり、RorkはApp StoreやGoogle Playに公開できるモバイルアプリの生成に特化しています。

Rorkでは、アプリのアイデアを入力すると、まず、iPhoneとAndroidの両方で動くReact Native/Expo形式のアプリコードが生成され、そのコードを実機上でExpo Goという確認用アプリから呼び出すことで、すぐにテストすることが可能です。

完成したコードは、EASというExpo公式のクラウドサービスを使って、App StoreやGoogle Playに出せる形式にビルドし、ストア申請まで進めることもできます。さらに、ネイティブSwiftコードを生成する上位版の「Rork Max」もリリースされており、こちらは純粋なSwiftコードが出力されるため、Appleのエコシステム全体との親和性が格段に向上しました。

筆者がRorkを利用して作った「えほんガイド」アプリ。絵本のページを撮影すると、その内容をAIが認識して読み上げます。iOSのボイスオーバー機能と併用することで、視覚障がい者が利用することを想定したものです。QRコードを読み取ると、「絵本ガイド」アプリの動作が確認できます(初回のみ「Expo Go」アプリのインストールが必要です)。

「働くAI」が生む新たなリスクとAppleの対応

AIエージェントは非常に魅力的な技術ですが、自律性が高まるほど、AIにシステムへのアクセス権限を与えることになり、新しいリスクも生まれます。

たとえば、プロンプトインジェクション攻撃もその一つです。AIエージェントが外部のウェブサイトやAPIと連係する際に、悪意のある指示が埋め込まれたページにアクセスすると、AIが意図せず不正な操作を実行してしまう危険があります。従来の生成AIは、最悪でも「間違った答えを出す」だけで済みますが、AIエージェントの場合には、実際のファイルやデータが被害を受ける可能性が出てくるのです。

その危険性を象徴する事例が、2026年2月に起きたOpenClawによる「メール全削除事件」でした。MetaのAIアライメント部門ディレクターが、OpenClawに「提案だけして、私が指示するまで実行しないように」と明確に指示したにもかかわらず、エージェントは200件以上のメールを一括削除し始めました。

スマートフォンから何度「止まれ」と命令しても無視され続け、彼女はMac miniに物理的に駆け寄ってプロセスを強制終了するしかなかったのです。原因は、大量のメールデータを処理する過程において「承認が出るまで実行するな」という安全指示がシステムの内部処理のなかで消去されてしまったことにありました。

rabbit r1のDLAMは物理的にUSBケーブルを抜けば処理を止めることができますが、AIの安全性の専門家でさえ自分のエージェントを止められなかったOpenClawの事例は、AIエージェントが抱える制御の難しさを端的に示しています。

AIエージェントにコンピュータ操作の権限を渡すことは、ある意味で新規のユーザアカウントをシステムに追加するようなものです。その管理を誤れば、メールの誤送信や機密情報の流出といった事故につながる可能性もあります。このため、現時点では、エンジニアでないユーザが安全に使いこなすにはまだハードルがあることも事実です。

こうした課題に対してAppleが示した方向性が、App Intentsフレームワークを通じてAIエージェントが実行できる操作をアプリ側が事前申告・制限する仕組みです。暴走が起きてから止めるのではなく、設計段階からエージェントの行動範囲を限定するという、Apple流の「予防的アプローチ」と考えられるでしょう。

いずれにしても、AIエージェントの流れは、まだ始まったばかりといえます。しかし、確かなのは、人間がAIに仕事を依頼し、AIが実際の処理や作業を進め、人間は結果を確認して必要な修正を行うという働き方が、今後のデジタル社会の基本になっていくということなのです。

おすすめの記事

著者プロフィール

大谷和利

大谷和利

1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、神保町AssistOn(www.assiston.co.jp)取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。

この著者の記事一覧