モバイルAIデバイス「rabbit r1」の挑戦／CEO独占インタビュー

2024年1月のCESで、199ドルという低価格とサブスクリプションなしのAI機能によって大いなる話題と多くの事前予約を集めたAIデバイス「rabbit r1」（※¹）。開発元のrabbit inc.は、その後もrabbitOSを地道にアップデートしつつ、新たなAIサービスである「rabbit intern」の開発を行ってきた。

本稿は、日本のメディアとして初めて同社CEOのJesse Lyu（ジェシー・リュー）氏にインタビューを行い、rabbit inc.のビジョンや、スタートアップ企業ならではの苦労、rabbit internの真価、業界における差別化戦略、Teenage Engineeringとのデザインコラボレーションの舞台裏、rabbit r1の今後などについて、率直に語っていただいた。

トランシーバーのようにAIと会話するという機能を、コンパクトな筐体に収めた「rabbit r1」。記事執筆の時点では、この業界で利用されている多言語対応の音声合成技術の制約により、漢字が中国語読みされることがあるものの、AIネイティブデバイスがどのようなものかを体験できる唯一の製品といえる。

rabbit inc.のCEOとして同社の製品やサービスのあり方を、思想・哲学面でリードするJesse Lyu氏。

rabbit inc.創業の思い

──まず、rabbit inc.の設立に至った経緯をお話しください。

rabbit r1の初期ローンチからおわかりのように、私たちは根本的にAIを搭載したオペレーティングシステムの実現に注力してきました。これは私のキャリア全体における情熱でもあります。

Rabbit以前に、私はRavenという別の会社を立ち上げました。それは大規模言語モデルやトランスフォーマーが登場する前のことでしたが、そのときもビジョンは同じでした。私たちの世代はSF映画やアニメを見て育ち、誰もが「J.A.R.V.I.S.」（※²）、あるいはそれ以上のものを構築したいと願っているといってよいでしょう。

実は、私の最大のインスピレーションのひとつは、日本の「エヴァンゲリオン」です。私は「エヴァンゲリオン」の大ファンで、その中に出てくるスーパーコンピュータ「MAGI」（※³）に魅了されました。テクノロジーの進化に伴い、指示を出すだけでコンピュータが人間の意図を理解し、実際にタスクを実行できるようになるというアイデアに惹かれたのです。

これを達成するうえで、複数のステップが考えられました。その最初のステップは自然言語の理解で、10年以上前にRavenを始めた頃、私たちはディクテーション（口述筆記）に取り組んでいたのですが、当時は約70%の精度しかありませんでした。まだ言語モデルが登場する以前のことで、自然言語処理（NLP）と自然言語理解（NLU）によるアプローチだったのです。

トランスフォーマー技術、つまり大規模言語モデル（LLM）が実用化されると、ようやくシステムが英語、中国語、日本語などの自然言語を理解するという最初のステップをクリアできました。実は私はYコンビネーター（※⁴）に所属し、OpenAIのサム・アルトマンとは10年以上の付き合いがあったため、2019年から2020年頃にChatGPTの初期バージョンにいち早くアクセスできたのです。

しかし、すぐに次のステップとして、「コンピュータやAI機器があなたの言ったことを理解した後、実際にあなたのために処理を行えるか？」という課題があることが明らかになりました。そして、その課題を解決することが、rabbit inc.を創業する動機となり、その後も主要なミッションとなっています。

私たちは、LAM（Large Action Model）と呼ばれるものを、何世代かにわたって進化させてきました。初期の頃、たとえば2024年のシステムローンチ前は、実際の人間がさまざまなアプリを使用する様子を記録し、ニューロシンボリック（※⁵）を使って「Spotifyが音楽プレーヤーなら、どこかに再生ボタンがあるはずだ」といった概念を理解させようとしたことがあります。このアプローチは、ある程度機能したものの、期待どおりにはいきませんでした。

そこで、すぐに第2の段階に移りました。そこでは、言語モデルとファインチューニングされたビジュアルモデルを使い、リアルタイムで物事を見て判断させました。つまり、システムが遭遇するものが何であるかを事前にプログラムしたり教えたりするのではなく、言語モデルにリアルタイムで判断させ、そこにあるインターフェイス要素をビジュアルモデルにリアルタイムで分析させるというアプローチです。これに基づくウェブエージェントの「LAM playground」（※⁶）を私たちがリリースしたのは、Anthropicの「Tool Use（ツール使用）」（※⁷）や、OpenAIの「Operator（オペレーター）」（※⁸）が発表される前のことでした。

LAM playgroundでは、ユーザに代わってAIエージェントがWebサイト内をナビゲートして情報をチェックし、それに基づくアクションをデジタルなインターフェイスに依頼して実行することができる。また、teach modeでは、ユーザが任意のWebサイトで特定のタスクを実行する手順を記録して、AIエージェントが再現できるようにする。

その後、この「アクション可能な能力」を、あらゆるものに拡張したいと思うようになりました。その際には、AIエージェントが、人間が見るものと同じように対象を見る必要はなく、人間と同じ方法でタスクを実行する必要もないと信じています。場合によってAIは、人間のようにそこに何があるかを見たり判断せずに、コードレベルで対象に直接深く入り込むほうが、物事をより良く実行できるからです。

たとえば、現代のGUIベースのソフトウェアは、ユーザが何をしたいのかを理解するのではなく、ユーザが目で見たり、手でクリックしたりするのを待つために、利用可能なすべてのオプションを表示するように設計されています。しかし、AIエージェントは、人間がGUIから得る情報がなくても、より良いアプローチで実行できるかもしれないわけです。

過去を振り返ると、機械との関係において人間は、何かを成し遂げるために、プランニング、推論、リサーチ、実行の4つの異なるレベルすべてを行う必要がありました。しかし、言語モデルが登場したことで、人間はリサーチから解放されつつあります。さらに推論モデルの進化により、AIモデルが自分でプランや推論を導き出すため、人間がそうした部分を行う必要もなくなるでしょう。

残るのは実行ですが、私たちはさらに一歩進めて、4つのレベルのどれも人間が行う必要がないようにしようと考えました。私はチームに究極の目標を伝えるにあたり、「神は『光あれ』と言われた。すると光があった」という聖書の創世記の言葉を使っています。これは、AIに「何々をしてほしい」と伝えるだけで、あとはAIがすべて行う、ということを象徴する言葉です。

人間の指示を受けて実行するrabbit intern

──それを具現化しようとするものがrabbit internですね？

rabbit intern（以下、intern）は、人間がこの4つのレベルのすべてをAIに委ねる最初の製品のひとつです。この技術は、それが実際にかなりうまく機能するという事実以上に、はるかに大きな意味を持つと私は考えています。なぜなら、私の視点からすると、これは人間と機械の相互作用における哲学的なレベルの転換であり、コンピュータが誕生して以来、起こってこなかったことだからです。

OpenAIも、最近、Operatorをリリースし、Manusという別の会社も、より高度なエージェントに取り組んでいますが、私たちの設計原則は非常にユニークです。internを使用すると、そのインターフェイスから、AIのエージェントが舞台裏でどのように考えているかを見ることができます。人間がAIに「何々をしてほしい」と伝えると、AIはまずプランを生成するのですが、これは、企業のCEOに相当するintern、あるいはマスターエージェントと呼ばれるものが、まず、ユーザーの要望を理解しようとする段階です。

CEOを演じるマスターエージェントがすべてのプラニングと推論を終えると、こんどは4つか5つの異なるエージェントを同時に雇用します。たとえば、その1つには「君はコーディングをして」、別の1つには「あなたは画像を見つけて」といった具合で、まるで実際のグループで協力して作業しているかのようです。

3つのタスクまでは無料で試すことができる、rabbit版のエージェント機能「rabbit intern」。

私たちのinternの結果が、ManusやGenSpark、OpenAIのエージェントと比較してはるかに優れている理由の一つは、実際の人間が処理する際のシナリオを模倣した、このようなアプローチを取り入れていることにあります。つまり、品質保証担当者が結果を再確認したり、プレゼンテーション担当者が視覚的に意味があるかをチェックしてくれるようなイメージです。この新しいマルチエージェントシステムを設計していくうちに、それはコーディングや技術的な方向性というよりも、哲学的なレベルでシステムを機能させる方法を構築するという側面が強くなりました。

私たちはこのアイデアを非常に長い間温めてきており、rabbit r1に対しても、そこから派生した技術を多くのOTAアップデートによって盛り込んでいます。そして、Manusが同社のエージェントの最初のバージョンをリリースしたときにも、私たちは「こうした考えをかなり以前から持っていたし、もっと良くできるはずだ」と考えたのです。

しかし、私たちは「rabbit r1にはサブスクリプションがない」という約束を破りたくありませんでした。だからこそ、internは、rabbit r1とは別の第2の製品として位置づけることにしたのです。つまり、rabbit r1を購入しないとinternが使えないということはないですし、rabbit r1を使うためにinternが必要ということもなく、どちらも自由に利用できます。

intern利用のベストプラクティス

──internの実際の利用例ですが、どのような現実世界での応用例がありますか？　特にクリエイティブな利用例はありましたか？

internの利用については、自分自身でも、非常にシンプルなタスクから、とても複雑なタスクまで、多くのテストを行ってきました。その結果、このように汎用的なツールを特定の人々向けだと定義するのは非常に難しいと感じ、逆に、人々がこれを使って何を生み出すかに興味が湧きました。そうした実際の利用例から、いくつかの興味深いものを紹介しましょう。

まず、このツールの能力を限界まで使って複雑な何かを作り上げるような熱心なユーザがいることは想定内でした。たとえば、Wordファイルに書いた物語をinternにアップロードし、そのストーリーに基づいてNintendo DSのゲームを作成するように依頼した、16歳の少年がいます。internは実際にそのゲームを作成し、少年が自分のNintendo DSで実際にプレイしているところを見せてくれました。これは、多くの若い世代の子どもたちが、これまでとは根本的に異なる方法でコンピュータを学び始めるだろうという、非常に興味深い例のひとつといえるでしょう。それは本当に驚くべきことでした。

また、internの利用に関しては、最初の3タスクを無料にして、それ以上は有料プラン（※⁹）を用意しています。そこで、初期のサブスクリプションユーザに注目したところ、意外なことに、多くの大企業のシニアエグゼクティブたちが登録していました。しかし、私にはその理由が理解できます。特定の業界や業種では、会社全体の仕事がリサーチを行い、内容を比較し、最終的に顧客にうまくプレゼンテーションすることだからです。

たとえば、不動産の営業担当者であれば、毎日異なる物件情報を収集し、顧客に提示しますが、このような職種では、internを使用して時間と作業量を大幅に節約できるでしょう。担当者には実際の顧客との商談などがあるため、すべての仕事をinternで置き換えられるわけではありませんが、データを収集して分析する時間を大幅に節約できることは確かです。

他にも実にさまざまな購読ユーザの方たちがいます。プライバシーを尊重するため、具体的な企業名は挙げませんが、世界的な銀行のシニアVPやエグゼクティブ、建設会社、不動産会社、情報機関の顧客もいます。私に連絡を取ってきたある米国のシンクタンクのユーザは、internを使って世界経済のテーマに関する国連のプレゼンテーション全体を準備したと話してくれました。

一方で、私にとっての最も印象的な例は、非常にシンプルなものだったりします。あるサードパーティベンダーと契約を結ぼうとしていたときのことです。契約を結ぶ際には、各当事者がそれぞれの弁護士を同席させて、Wordで編集を行います。そして、両方の弁護士が「これで署名できる」という段階になると、途中で加えたコメントやハイライト部分をすべて削除した、クリーンなバージョンを作成する必要があるわけです。

そこで私は「インターンにこれができるか試してみよう」と思い、コメントやハイライト付きの最終版ファイルをinternにアップロードし、「これをクリーンなバージョンにして、署名できるようにPDFに変換してほしい」と伝えました。

すると、2、3分という非常に短い時間でinternが結果を出してきました。タスク自体は単純なので、その程度の時間で処理できることはわかっていたのですが、本当に驚いたのは、舞台裏で何が起こっているのかを見たときです。私は、internがMicrosoft OfficeやAdobe Acrobatをツールとして使用して、ファイルをPDFに変換するだろうと考えていました。ところが、internは最良の戦略として、Pythonを使ってコンバーターを作ることを選択していたのです。これは非常にAI的なアプローチといえます。つまり、APIを使用する能力があるにもかかわらず、internは「OfficeもAcrobatも必要ない。今すぐコンバーターをプログラミングすれば、何よりも速い」と考えたわけです。

internを使って作られたモーショントラッカーの例。人間やrabbit r1を画像認識し、その動きを追う機能を持つ。ここから、実際に試すことができる。

internに対し「大阪関西万博に訪れたインバウンド観光客の国別の人数を調査してグラフにまとめ、同じく国別の反応を代表的なコメントとともにレポートしてください。形式は日本語のPDFでお願いします」と依頼して作成された日本語のレポート。ここから実際のPDFを見ていただけるが、グラフやレイアウトもすっきりとまとまっている。

すべてのインターフェイスとアプリケーションは姿を消す

──rabbit r1の革新性も、アプリをなくして、AIにやりたい事を伝えるだけでよいというアプローチにありました。

それは、rabbit r1向けにジェネレーティブUI（※¹⁰）をリリースして以来、コメントし続けてきたことにも通じます。 rabbit r1は、AIによってインターフェイス全体を生成できる人類史上初のデバイスになりました。これは、AI自体にはインターフェイスが不要で、ユーザの望むものを作成した後に、必要に応じてインターフェイスを生成すればよいという私たちの信念に基づくものです。

私は昨年11月頃、チームに「将来、すべてのインターフェイスは死に、すべてのアプリケーションも死ぬだろう」と話しました。なぜなら、internのような新しいテクノロジーがあれば、インターフェイスやアプリケーションを事前に定義しておく必要はなくなるからです。それが、AIの選択であり、もっともエキサイティングなことだと思います。しかし、私がRavenを始めた10年前にはもちろん、ほんの3年前でさえ、ほとんど不可能と思われていたことでした。

もちろん、AIはまだユーザから何を作成したいのかを学ぶ必要があります。その意味で、現段階では依然としてプロンプトが非常に重要です。しかし、最終的には完全に自然言語による会話へと移行していくでしょう。そのために、私たちもリアルタイム音声モードを用意しました。これはプロンプトを入力するよりも、はるかに良い体験をもたらします。AIに何をしたいかを伝える代わりに、internがあなたと会話して、本当は何をしたいのかを引き出してくれるからです。

たとえば、家具店に入ったとして、欲しい家具が明確にわかっている人以外は「ウォールナット製の17フィートのダイニングテーブルと4脚の椅子が欲しい」と伝えることなどできません。それよりも、店員が「こんにちは、何をお探しですか？」と話しかけ、顧客との会話を通して「3つの選択肢があります」と提示するほうが自然です。

私たちは、プロンプトを入力しなくてはならない責任から、人間を解放しようとしています。なぜなら、AIは自分でプロンプトを作成することができるからです。AIとの自然言語での会話だけが必要な環境というのは、映画『her/世界でひとつの彼女』のシステムに非常に近いと思います。

マルチエージェントで重要なのは品質と結果

──先ほど、internはマルチエージェントシステムだといわれましたが、他のエージェントシステムともっとも異なる点は何でしょうか？

internには、このアイデアを他の主要な企業よりも先に発表し、育ててきたことによる信頼性があると思います。私たちは、AIエージェントシステムを本当に理解した最初の企業のひとつといえるでしょう。

もちろん、この業界では誰もが追いついてこようとしますし、個人的には競争は良いことだと考えています。テクノロジーは全般的にそうですが、特にこの新世代のAIテクノロジーの時代においては、秘密というものがほとんどありません。過去には、コカ・コーラにはアトランタのどこかの金庫に秘密のレシピがあり、KFCには秘密のレシピがあるといった話も聞きましたが、テクノロジーの世界には当てはまりません。

AIのテクノロジーも、他者の仕事に基づいており、多くのアイデアを共有しています。トランスフォーマー技術ひとつを取り上げても、すべてのモデルが5つか6つの論文に基づいています。この競争における秘密は、ますます少なくなっており、逆に重要性を増しているのは品質と結果です。マルチエージェントシステムは他のプレイヤーも手がけていますが、私たちは、その２点に焦点を当てています。

そのためにも、私たちは顧客の意見に真剣に耳を傾け、彼らから学び、より多くの価値と品質を提供できるよう最大限努力してきました。しかし、これが世界でもっとも激しい競争であることは間違いなく、私たち自身、競合他社の存在によって前進させられているところもあるのです。

もうひとつの強調したい点は、いくつかの企業が似たように見える技術を提供していても、文化の違いがあるということです。そして、その文化の違いがユーザの選択に大きな影響を与えます。私たちは非常に強力なファンベースを持っており、彼らは大切な存在です。多くのユーザーは、すべてをコントロールするような巨大企業を好まず、私たちを信じることを選択してくれます。これは私たちにとっての利点となる、文化的な違いです。

そして、私たちは非常に速いペースで動き続け、未来に対する私たちの考えを披露し、できるだけ早くすべてをリリースするように努力しています。今回のinternについても、すでに2カ月以上無料で提供してきました。私たちは、自分たちが誇りを持てる方法で、ユーザに最高の成果を提供できるようにしたいと考えているのです。

──それは、まだApple Computerと呼ばれていた頃の、初期のAppleを思い出させますね。

日本の任天堂の歴史、特にファミコンの時代にも近いと思います。ファミコンはCPUやGPUの性能では他社と競争しませんでしたが、コンテンツの「遊びやすさ」に非常に力を入れました。私は任天堂の大ファンで、彼らの哲学にも共感しています。それは、資金をもっとも多く集めなくても、何百人もの従業員を抱える巨大企業でなくても、本当にクールなことができるというものです。私自身が会社を経営し、製品を構築するうえで、そこから多くのインスピレーションを受けています。

コナミで「メタルギアシリーズ」を開発し、コジマプロダクションで「DEATH STRANDING」を完成させた、小島秀夫氏も良い例です。創造性に焦点を当て、何百倍も大きい競合他社と戦い、最終的に非常にユニークな文化と基盤を築いています。私たちは非常に若い会社で、まだ1年半しか経っていませんから、もちろん多くの課題もありますが、これらの会社は優れた手本です。

今ではヒューレット・パッカードに吸収されてしまった、Humane（※¹¹）という会社と比較してもよいでしょう。私もAI Pinを購入しましたが、Humaneとrabbit inc.との間には、明確な文化的な違いを感じました。私たちは、より地に足の着いた、任天堂のようなスタイルですが、Humaneは技術至上的で、コンテキスト（文脈）という非常に重要な要素を欠いていました。私たちは規模は小さく保ちながらも、製品のすべてにrabbitらしさを感じられることや、私たちの思い描く未来が正しいと思ってもらえることに社運を賭けているのです。

先進的なインターフェイスが話題を呼んだ反面、ビジネス的には失敗したHumane AI Pin。

──LAMプレイグラウンド（※¹²）とRabbit Internの最大の違いは何ですか？

LAM全体はモデルではなくシステムです。LAMのアイデアも「エヴァンゲリオン」から直接のインスピレーションを受けています。マルチモーダル化されたAIが脳だとすれば、今では「目」も与えられて物事を見ることができるようになりました。そのように喩えると、私たちのLAMは、AIに「手」を与えて、コンピュータの画面内でクリックしたり、入力したりできるようにしたものといえるでしょう。

しかし、LAMプレイグラウンドは、現在のアプリケーションが事前にプログラムされたインターフェイスで定義されているという前提に基づいています。一方で、先ほどお話ししたように、私たちはそれが不要になる段階へとゆっくりと移行しつつあるわけです。つまり、短期的には、定義済みのインターフェイスをもつアプリケーションが対象のLAMと、インターフェイスやアプリケーション不要で機能するinternの両方が共存しますが、長期的にはinternが唯一の選択肢になるでしょう。

LAMプレイグラウンドで、たとえば「ユニクロのサイトで夏のおすすめ商品を探して」と依頼すると、右側のスペースに実際のWebサイトが表示され、キーワードによる検索機能を使ってエアリズムのUVカット製品を見つけるという一連の処理が行われる。

たとえば、OpenAIのOperatorは彼らのLAMプレイグラウンドのようなものですが、いくつかの制約があります。Operatorには個人に紐づけされたデバイスがないため、ユーザ自身に関する質問に答えられません。私たちには、rabbit r1という物理的なデバイスがあることが利点となっています。そして、既存のアプリケーションやインターフェイスを扱うことができるLAMプレイグラウンドにも依然として価値はありますが、マルチエージェントシステムであるinternが未来を定義していくことになるでしょう。

──先ほど、多くの課題もあるといわれましたが、それらを解決していく経験からどのような教訓を得ましたか？

最初に何かをするということは、ほとんどの人にとって、あなたが何をしているのかが理解できないことを意味します。これは、最初のMacintosh、最初のiPhone、あるいは最初のTeslaにとてもよく似ているといえるでしょう。Appleが最初のApple Iをリリースしたとき、多くの人々は「なぜ自分にパーソナルコンピュータが必要なのか？」と思っていました。ごく少数の人々しか、その意味が理解されなかったのです。また、最初のiPhoneにはアプリがなく、App StoreはiPhone 3GSまで登場しませんでした。当時のMicrosoftのCEOだったスティーブ・バルマーが、インタビューで「私のBlackBerryはメールを送れるし、カレンダーをチェックできる。なのに、なぜ高価なiPhoneが必要なんだ？」といっていたのを覚えているでしょう。最初のテスラはロータスの車両を改造した製品で、人々から「なぜ、そんな電気自動車が必要なんだ？　トヨタのプリウスよりも走行距離が短いし、マセラティよりも内装がひどい。充電ステーションもそんなに多くないのに、なぜ？」と批判されたわけです。

rabbit r1をリリースした当初も、「なぜアプリがないのか？」「なぜハードウェアが必要なのか？」「画面上のボタンをクリックするほうが速いのに、なぜこのエージェントが必要なのか？」といった意見があり、これらはすべて非常に自然な反応でした。人々が何か新しいものを見たときに反発するのはよくあることで、私たちもそれを理解していたので、そのような意見は気にしないようにしました。なぜなら、自分たちの方向性が未来を正しく指し示しているる限り、そこで示された多くのことが、いずれは実現されていくと強く信じているからで、それが私の哲学なのです。そこで、私たちは「ひたすら開発を続け、アップデートをプッシュし続ける」という、自分たちにできる最高の対応策を選択しました。

そういうわけで、Humaneも私たちも製品リリース直後から多くの批判に直面しましたが、HumaneのAI Pinが１年で２回しかアップデートされなかったのに対して、rabbit r1では35回以上のOTAアップデートと修正が行われています。私たちは顧客の声に耳を傾け、何が起こっているのかを理解し、対応することに専念したのです。

予想を超えて売れた悩み

──rabbit r1が登場したとき、個人的には、スマートフォンの次のパラダイムが現れたと感じました。約束されたとおりに動かない部分もありましたが、初代Macもそうだったように、時間が経てば解決するだろうと思っていましたし。

初期のrabbit r1には、多くの誤解がありました。「テストすらしていないのか、これは機能していない」と考えた人々もいます。しかし、それは違っていました。

従来のような事前に定義されたアプリケーションであれば、同じ処理を何回実行しても結果もまったく同じになります。しかし、AIと連携する場合には、そこが異なってくるわけです。AIモデル全体がブラックボックスであり、内部で何が起こっているのかを見ることはできません。Googleが画像生成AIをリリースした際、大量の黒い塊が生成された事件を思い出してください。人々は「テストすらしていないのか」と思ったでしょうが、あれも、そうではなかったのです。

AIモデルと連携する場合、企業規模の大小とは関係なしに、最初の数カ月は常に「大惨事」になります。一般に公開されて多くのユーザが使い始めると、より多くの特異なケースが発見され、モデルをリアルタイムでファインチューニングしていく必要が出てくるからです。ChatGPTも、当初は、なぜ「1+1=3」と答えるのか、あるいはStrawberryの綴りにRは２つあると回答するのかを、人々は理解していませんでした。

それでも、そういう現象を受け入れた私たちは、継続的にデバイスのアップデートを行うことを選択しました。しかし、最大の課題は、CES2024のタイミングでrabbit r1を発表したときに社員が9人しかいなかったことです。当初、私たちは3000台の予約販売を見込んでいましたが、突然1万台が売り切れ、すぐに5万台、そして10万台が瞬く間に売り切れました。

そこで生じた、もう１つの大きな課題が、物流の迅速なスケールアップです。幸いなことに、私のRaven時代にもハードウェアを扱った経験があり、10年以上私のために働いてくれているチームがありました。そのため、大量の注文に対応することができ、2024年の4月には欧米向けのrabbit r1をすべて出荷することができたのです（※¹³）。その後は、ひたすらシステムの修正を行って、より良くしていくだけでした。

5%未満の製品返品率

──精力的なアップデートには企業としてのコミットメントが感じられました。

実は、初期に多くの批判があったにもかかわらず、今日までのrabbit r1の返品率は5%未満で、これは第1世代のハードウェアとしては印象的です。私たちはこの結果に満足しています。

現在のrabbit r1には、ローンチ時にはなかった多くの新機能が導入されています。マジックカメラ、ジェネレーティブボイス、ジェネレーティブUI、そして最新のメモリ機能などです。これらも大きなアップデートでしたが、現在、真新しいrabbitOS 2に取り組んでおり、internに関する多くの研究も行っています。

以前に私たちは、はるかに多くの資金を調達していたHumaneを強力な競合相手だと考えていましたが、もはや競合相手ではありません。続いて、Apple Intelligenceも非常に強力な競合相手になるだろうと思っていました。Twitterでは「AppleがApple Intelligenceをリリースしたらお前らは終わりだ」とからかわれたほどです。しかし、実際に発表されたApple Intelligenceに対応したiPhoneとrabbit r1でできることを比較すれば、どちらが旧世代で、どちらが新世代かは明白でしょう。

私たちは、私たちの進む道が絶対に正しく、あるべき未来に向かっていると強く確信しているのです。

Teenage Engineeringとの協業の秘密

──Appleにとってはアプリストアからの収益も大きいので、アプリを不要にしていこうとするrabbit r1のように大胆なアプローチは取れないと思います。では、自分自身も読者も電子デバイスの製品デザインには大きな関心があるので、あなたとTeenage Engineeringとのコラボレーションによって生み出されたrabbit r1のデザインプロセスについてもお話しいただけますか？

はい、私自身も熱心なインダストリアルデザインのファンです。あらゆる種類のギアを収集していて、アナログシンセサイザーも集めています。音楽つながりでTeenage Engineeringにも比較的早くから興味を持ち始め、彼らが2011年にリリースしたOP-1（※¹⁴）がとても気になったのですが、当時の私には高すぎて買えませんでした。

後のTeenage Engineeringによる製品に共通するシンプルさ、楽しさ、機能性を兼ね備えたデザインを纏って登場したOP-1。

しかし、彼らの活動には常に注目し続けていて、Raven時代のスタッフに「もしTeenage Engineeringが私に電話をかけてきて、雇いたいといわれたら、トイレ掃除の仕事でも受けるだろう。それほど彼らの会社が好きなんだ」と話したことがあります。そうしているうち2016年にRavenはBaiduと提携し始めて、私がハードウェア部門全体を担当することになったので、「Teenage Engineeringに直接連絡を取って、彼らが共同作業に前向きか聞いてみよう」と考えました。

Teenage Engineeringはメーカーであって、デザインエージェンシーではないと誤解している人も多いのですが、実際には、頻繁ではないものの他社のためのデザインも行っています。ただし、共同作業の相手は、IKEA、Polaroid（※¹⁵）、Raven、そしてGoogleとのサイドプロジェクトくらいです。つまり、彼らは「お金を払ってくれれば仕事をします」という類いの会社ではなく、相手を選ぶ厳しい基準があるといえます。

いずれにしても、私は彼らに連絡を取り、自己紹介をしました。「私はあなたがたの大ファンで、リリースされたすべての作品を持っています」と。すると、彼らから「話をしましょう」と言われ、ストックホルムに飛んで、創立メンバーの1人であるJesper Kouthoofdに会いました。

彼は私より15歳か20歳くらい年上ですが、まるで同じ世代の人間のように感じられました。そのとき私は、iPadとApple Pencilを持って行ったのですが、彼もまたiPadとApple Pencil使いでした。座ると、彼は私に「どんな音楽を聴く？」、「どんな車を運転する？」といった質問をしてきました。私たちの答えはまったく同じで、彼は力強く「やりましょう」と言ってくれたのです。そのようにして、Ravenとの協業が始まりました。

ただし、その関係は、私が契約書にサインし、彼らが作業をして私に報告するというようなものではありませんでした。それは、私とJesperのコラボレーションであって、１つのアイデアについて継続的に議論することだったのです。そうして出来上がったスマートスピーカのRaven Hの特許を確認すると、私たちは「共同発明者」と記されています。デザイン開発は、2つの脳が1つのアイデアに融合したようなプロセスで、全体的に滞りなく安心して進めることができました。

そのとき、私たちは退屈なメールのやりとりすらせず、秘密のInstagramアカウントを開設しました。デザインプロセスの全体を保存したかったからです。他のコミュニケーションは一切なく、メッセージや電話も不要でした。そして、そのアカウントに互いのアイデアスケッチなどを投稿し、「いいね」をクリックしていったのです。

初日は、一緒に座ってペンで絵を描いたのですが、Raven Hの基本コンセプトはすでにそこに見えていました。そのため、後の作業もスムーズでした。この最初のコラボレーションは非常にスムーズで、お互いを気に入り、私はJesperがNothing（※¹⁶）という別の会社を立ち上げる際にも手伝ったほどです。

RavenとTeenage Engineeringの協業から生まれたスマートスピーカーのRAVEN H。

そして、rabbit r1を開発することを決意したとき、私はJesperにFaceTimeをして、「ねえ、もう一度やろう。でも今回はもっと速くやりたい」と伝えました。彼は休暇で夏の別荘にいたのですが「ちょっと聞いてくれ、私が作りたいのは、Pokédex（※¹⁷）とトランシーバーが合わさったような製品なんだ。サイズはiPhoneのちょうど半分にしたい」と話している間に、２人ともiPadに絵を描き始め、基本デザインは10分でできたのです。それからJesperが送ってきたドローイングとレンダリングに対して、私は「カメラも必要だと思う。１つで済むように回転式にしてほしい」と追加で頼みました。

カラーリングに関しても、私たちは明確な考えを持っていて、RALカラースタンダード（※¹⁸）のみから色を選んでいます。現代の多くのアーティストが好むPantoneカラーは、デジタル印刷用に設計されていますが、ドイツ生まれのRALカラースタンダードは、元々、自動車の塗料用に設計されたものです。その色数は、他の色見本に比べて少ないのものの、限られた選択肢の中から選ぶことにも利点があると感じています。Raven Hもrabbit r1も、あるいは他のTeenage Engineering製品も、カラーはすべてRALカラースタンダードから選ばれたものです。

実は、Jesperはrabbit r1のために、より赤みがかった色を選んだのですが、私は冗談めかして自分の希望を伝えました。「Jesper、私は10年以上あなたの決定に反対したことはないが、今回だけは私のアイデアを受け入れてくれ。蛍光オレンジを使おう」と。彼は「もちろん、どうぞ」と言ってくれました。それによって、rabbit r1のデザインストーリーが完結したというわけです。

私は、この明るいオレンジの色が大好きです。ほとんどのカメラの色再現域を超えてしまいそうな色ですが、これが私たちの主張であり声明だといえます。私たちは、使うことが楽しく、しかも、これまでに見たことのないものを作りたかったのです。

rabbit r1を実現できたことに関しては、Teenage Engineeringのチームの多大な功績を称えたいと思います。デザインに関して、100%自分と同じ言葉で語り合え、あらゆることを共有し、協力できるパートナーを見つけることは、非常に稀で幸運なことですから。また、外からはシンプルに見えるかもしれませんが、私のハードウェアチームの大きな功績も同じように称えたいです。彼らは、私とJesperがどんなにクレイジーなデザインを投げても、それを実現してくれました。

クールなレンダリングやクールなデザインがあっても、それを現実に製品化して何十万台も製造できるとは限りません。その間をつなぐ、素晴らしい才能を持つ人々が私の周りにいて、同じ道筋と考え方で協力してくれるのは、本当に幸運だと感じています。rabbit r1は199ドルですが、そのビルドクオリティは非常に高いものです。

私たちは、rabbit r1のパッケージ内に、カセットテープのケースから着想を得たトラベルケースも含めました。カセットテープのケースと同じく、スタンドとしても使えます。そして、その包装を考えていたときに、私は「セロファンの開封用テープのアイデアが本当に好きだ」といい、それも再現しました。このように、本体以外にも細かなアイデアを盛り込んでいます。

私は、2000年代の古き良き記憶を取り戻したいと考えています。当時、すべてのデバイスはそれぞれが異なり、独創的でした。ジョナサン・アイブが提唱したアルミニウムのミニマリズムデザインから脱却して、少し違う存在になりたいのです。

──rabbit r1には、タッチスクリーンとプッシュ・トゥ・トークボタンの両方の操作方法がありますが、これらの使い分けはどのように決められたのですか？

矛盾するようですが、私たちは、両方の機能を搭載しながらも、当初はタッチスクリーンを無効化していました。個人的にはタッチスクリーンが嫌いなわけではありませんが、私たちの周りにはタッチスクリーンが多すぎるとも感じていたからです。

タッチスクリーンが常に優れているとは限りません。そのことを、デザイナーが先読みできなかったケースも多々あります。たとえば、私はテスラに乗っていたのですが、そのタッチスクリーンがあまりにも嫌で、別のクルマに買い換えました。そんな風に今はタッチ操作が主流なので「もしかしたら、私たちのやり方では勝てないかもしれないが、最初からそうしてしまうことはやめよう」という意見表明をしたのです。

もちろん、それは大きなリスクを伴いましたが、そのおかげで次期バージョンをどうすべきかが見えてきたといえます。もし最初からタッチスクリーンを有効にしていたら、人々はタッチ操作に依存し続けるという懸念がありました。rabbit r1の画面は小さく、スマートフォンのようにTikTokやTwitterを使うように設計されているわけではないので、別の操作方法を試したのです。しかし、まもなくrabbitOS 2.0でタッチスクリーンを有効にします。

欲しい機能を伝えれば応えてくれるデバイスを目指す

──最後に、日本の読者へのメッセージをお願いします。

私は日本が本当に好きです。日本の文化、そして素晴らしい日本のデザイナーやアーティストから大きなインスピレーションを受けてきました。年に一度は必ず日本を訪れています。

また、日本のファンの皆様、ユーザの皆様のご支援に感謝いたします。私たちは、日本を含むあらゆる文化向けに製品を提供し、設計することに非常に力を入れており、日本のユーザからのフィードバックも直接お聞きしたいです。現状では、rabbit r1の日本語の発音に一部おかしなところがありますが、これもテキスト・トゥー・スピーチのエンジンを変更することで、近い将来に解消していく予定です。

そして、私たちの最新のリリースにもご期待ください。internはもちろん、rabbit r1のOSの新バージョンとなるrabbitOS 2にも取り組んでおり、新しい機能も開発中です。rabbitOS 2では、すべてのオンボード機能がタッチスクリーンに最適化され、インターフェイス全体が再設計されます。

もっとも重要なのは、「クリエーションズ」と呼ばれる機能です。これは、これは私が先に述べた「ソフトウェアの死」という考えを具現化するもので、将来的に、internとrabbit r1の統合を進めていくにあたり、「スマートフォンではできず、rabbit r1にしかできないことは何か？」という疑問に応えてくれます。

つまり、「このデバイスには〇〇個の機能がある」ということをアピールするのではなく、デバイスがユーザに何をしたいかを尋ね、その機能を作成してくれる製品へと進化するのです。例として、「スネークゲームをプレイしたい」と伝えれば、rabbit r1がinternの機能を使って、その機能を構築します。あるいは「株価トラッカーが欲しい」といえば、「それを作成します」と応えてくれるのです。これが私たちの、次の最大の焦点であり、もうすぐ最初のバージョンを提供できるようになるでしょう。rabbit r1はそうした機能を実現する世界初のデバイスであり、ユーザがそうしてできた機能を公開すれば、それが新しいタイプのアプリストアにもなるわけです。

次回に、私たちのチームが日本を訪れた際には、ユーザの皆様と実際に集まることができればと願っています。

──その意味では、まずinternを試してみることが重要ですね。ありがとうございました。

そうです。ぜひ多くの方に試していただきたいと思います。ありがとうございました。

2025年9月12日追記：

記事公開の後でrabbitOS 2が公開され、基本インターフェイスが一新されるとともに、ユーザがAIエージェントと話すことで、デバイス上で独自のソフトウェア、インターフェイス、音声を生成できる世界初のデバイスとなりました。また、９月末までは、すべてのユーザにintern機能を10回、無料で試せるクレジットも付加されることになりましたので、追記しておきます。

rabbit r1：ユーザに代わってさまざまな処理を行うことを目標に開発されたAIエージェントをサポートする、rabbitOSを搭載したAIネイティブデバイス。2.88インチのタッチスクリーン、スクロールホイール、回転式カメラ、マイク／スピーカを内蔵し、Wi-Fiと4G LTE（SIMカード使用時）を介してクラウドとのやりとりを行う。プッシュ・トゥー・トークボタンを押しながらトランシーバーのようにAIと会話するスタイルを基本とし、パスワード入力などのためのソフトキーボードも備える ↩︎
「アイアンマン」シリーズに登場するAI執事 ↩︎
「新世紀エヴァンゲリオン」に登場する、異なる「人格モデル」が組み込まれた3つのスーパーコンピュータからなる意思決定システム ↩︎
主にスタートアップ企業を対象に投資を行い、その成長を支援する組織 ↩︎
人間のように「直感」と「論理」の両方を使って推論・学習・意思決定を行うことを目指して、ニューラルネットワークによる機械学習と、記号処理・論理推論・ルールベースなどをベースとしたシンボリックAIを統合するアプローチ ↩︎
ユーザがrabbitのAIエージェントに指示を与えて、実際にそのアクションを試すことができるWebサービス ↩︎
必要に応じてAIが、電卓、コード実行、Python、API呼び出しなどのツールを選択し、対応する処理を行う機能 ↩︎
コーディングやコンサートチケットの予約、食料品の注文など、ブラウザ上でシンプルなオンラインタスクを実行できるAIエージェント ↩︎
30件のタスクを月額69.99ドル（年払いの場合）、あるいは月額99.99ドル（月払いの場合）で購入するか、単発で3つのタスクを29.99ドルで購入可能。サブスクリプションとは別に、初めてrabbitholeアカウントを作ったユーザは、3タスクを無料で利用できる ↩︎
処理の結果を返す際のユーザインターフェイス自体を、プロンプトによってリアルタイム生成するUIのあり方 ↩︎
元Appleのデザイナーとエンジニアの夫婦が設立した企業で、画面がなく胸に装着するウェアラブルAIデバイスのAI Pinを開発。音声とタップで操作し、手のひらにレーザー投影されたインターフェイスで応答を表示する画期的な製品だったが、本体価格699ドル＋月額24ドルのサブスクリプション料金が高すぎ、過熱やバッテリ持続時間の短さ、レスポンス遅延などの問題から撤退を余儀なくされた ↩︎
チャットだけでなく実際に何らかのアクションを行えるLAMの機能を試すことのできるrabbit r1ユーザ向けのWebサービス。コンピュータ上で機能するが、rabbit r1を起動しておく必要がある ↩︎
日本向けの出荷は同年の6月からスタートした ↩︎
Teenage Engineeringの最初の製品で、シンセサイザー、サンプラー、シーケンサーの機能を併せ持つスタイリッシュなデジタルキーボード ↩︎
旧Polaroidではなく、ポラロイド判インスタントフィルムを再生産したThe Impossible Projectの改名後の新生Polaroid ↩︎
デザイン性に優れたスマートフォンやイヤフォンを開発・販売している企業 ↩︎
「ポケットモンスター」シリーズに登場するポケモン図鑑のことで、見つけたポケモンの名前・姿・タイプ・特徴などを記録する電子端末 ↩︎
未来感や機能美を追求する色の設計思想に基づき、素材の質感を重視した塗装用のカラースタンダード ↩︎

著者プロフィール

大谷和利

1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、神保町AssistOn（www.assiston.co.jp）取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。

この著者の記事一覧