Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

Siri、Alexa、Google…、どの音声アシスタントが賢いの?

著者: 牧野武文

Siri、Alexa、Google…、どの音声アシスタントが賢いの?

今や、スマホなどのデバイスに搭載されるのが当たり前となった音声アシスタント。中でも代表的なのは、アップルのシリ(Siri)、グーグルのグーグルアシスタント、アマゾンのアレクサだ。これらは俗に「人工知能」と呼ばれ、ユーザに親しまれているが、それぞれどのような特徴を持っているのだろうか? これが今回の疑問だ。

そもそもシリは人工知能なのか

スマートフォンやスマートスピーカに搭載されているアップルのシリ、グーグルのグーグルアシスタント(以下 グーグル)、アマゾンのアレクサは「人工知能」と呼ばれることが多いが、これは誤解を招きがちだ。少なくとも、アップルはシリのことを人工知能とは呼んでおらず、厳密には「機械学習テクノロジーが用いられた音声アシスタント」という言い方をしている。

機械学習とは人工知能を支える重要技術のことで、「だったらシリを人工知能と呼んでもいいんじゃない?」と思う方もいるだろう。確かにシリは音声認識などに機械学習が使われているが、肝心のユーザとの会話は人間によってプログラムされたものにすぎない。これはグーグルやアレクサも同様である。

たとえば「何か面白い話をして」と尋ねたとき、アレクサは「〇〇とかけまして…」という謎かけを答え、グーグルはダジャレに似たなぞなぞを出題してくれる。シリは「前にもお話ししませんでしたっけ」という返答で話題をそらす。さらに何度もしつこく尋ねると、シリの過去にまつわる身の上話を語り始める。

こういった応答から「アレクサは親しみやすく、グーグルは賢く、シリはクール」といったイメージを持つ人もいるが、これは各音声アシスタントの知能や性格が表れているのではなく、残念ながら制作チームの方針が反映されているだけのことなのだ。

一問一答形式の入力に対応するアレクサ

では、プログラムされたものであるのは前提として、それぞれの音声アシスタントはどのような長所を持っているのだろうか。

アレクサで特徴的なのは、複雑な事項を音声入力するときに、一問一答方式で対応してくれることだ。

たとえばスケジュールに予定を入れたいとき、入力しなければならない項目は「日付」「時間」「場所」「参加者」「内容」と多岐に渡る。シリやグーグルの場合、これらの項目を一口で伝えなければならない。「明日の5時から、渋谷駅前で鈴木さんと待ち合わせ」という具合だ。これはなかなか面倒で、途中で内容を忘れてしまったり、言葉を噛んでしまいがちである。そのため、一部の項目だけを伝えてとりあえず予定を作成し、あとでデバイス上で情報を補足するという使い方になる。

ところがアレクサなら、「5時に予定を入れて」とだけ言えば、「何日ですか?」「なんという名前にしますか?」と、一つ一つ確認して情報を補ってくれる。アレクサを搭載しているのはアマゾン・エコー(Amazon Echo)といったスマートスピーカなので、基本的には音声操作が前提となる。シリやグーグルのように、不足情報をスマホから補うことができないことからこの一問一答形式になっているのだろうが、これはたいへん便利な機能だ。

話題を記憶するグーグルアシスタント

一方、グーグルは「話題にフォーカスできる」という点で優れている。

たとえば、「ビートルズについて教えて」と尋ねたあとに「どんな曲があるの?」と聞くと、ビートルズの曲を紹介してくれ、「ベーシストは誰?」と尋ねてもちゃんと答えてくれる(しかも、ポール・マッカートニーだけでなく、幻のメンバーと言われるスチュアート・サトクリフまで挙げる通ぶりだ)。

シリやアレクサは、このような話題にフォーカスする機能は持っていない。「ビートルズについて教えて」という質問に答えるとすぐに話題を忘れてしまい、「どんな曲がある?」「ベーシストは誰?」と尋ねても「よくわかりません」としか答えない。

グーグルのように1つの話題から関連質問ができる仕組みであれば、かなり深い部分まで根掘り葉掘り調べることができる。シリとアレクサはぜひ真似をして、この機能を取り入れてもらいたい。

外部で流れている曲を解析できるシリ

他方、シリは曲名やアーティスト名を知りたいときに役立つ機能を搭載している。いずれの音声アシスタントでも、そのデバイスで音楽を流しながら「なんていう曲?」と聞けば曲名などを答えてくれるが、シリはそれに加えて外部で流れている曲、つまりテレビやラジオで流れている曲だって認識してくれるのだ。これはシリが、周囲の音楽を解析するサービス「シャザム(Shazam)」とリンクしているから。喫茶店などで流れている気になるBGMを知りたいときにも活躍してくれる。

この連載では、何度となくシリを使うことをおすすめしてきた。「日本人は恥ずかしがり屋だから音声入力が苦手」という意見から、自分でもそう思い込んでシリをあまり使おうとしない人が多いが、それはとてももったいないことだと思うのだ。今では音声認識の精度も格段に上がり、文字入力も十分使えるレベルに達している。利用価値は以前に比べてずいぶん上がっているのだ。

もしどうしても使うのが恥ずかしいというのであれば、シリを起ち上げてから、電話をかけるように耳に当ててしまえばいい。筆者おすすめの音声操作は、「〇〇をリマインド」「明日の○時に予定を入れて」「○時に起こして」「今日は雨降る?」などだ。食わず嫌いをせず、ぜひ使ってみてほしい。

スマートスピーカがスマホに置き換わる

このように、各音声アシスタントは違った強みを持っている。ユーザとしては、それぞれが影響し合ってより良い機能を使えるようになるのが一番だ。近い将来、シリの会話機能がさらに進化を遂げ、アップルが正式に「人工知能」と呼ぶ日もくるかもしれない。

さらに話を広げると、音声アシスタントのプラットフォームは、今後スマホからスマートスピーカへと移っていくだろう。スマホは確かに便利なデバイスだが、人はこれに頼りきるあまり、本来そぐわない状況・場所でも使ってしまう事態になっている。歩行中や運転中のスマホ操作は、すでに深刻な問題だ。また、スマホへの強い依存によって、使いこなすつもりがかえって振り回されてしまっている人も多いかと思う。

片やスマートスピーカは、部屋全体がデバイスになる感覚があり、デジタルとのつき合い方を制御しやすい。今後はリビングや寝室のみならず、浴室や車の中などにも普及していくに違いない。読者の皆さんの中にはホームポッド(HomePod)日本発売を待ち望んでいる方もいると思うが、ぜひ早めに他社のスマートスピーカも体験してみてもらいたい。そこには、AIアシスタントとの新たな付き合い方が待っている。

Googleアシスタントで「何か面白い話をして」と求めると、ダジャレのような「なぞなぞ」を返してくれる。

Siriに「面白い話をして」と言ってもそっけなく返される。何度もしつこく尋ねると、やがて長い身の上話を語り出す。残念ながら、この返答は人工知能が機転を利かせたわけではなく、人間によってプログラムされたものにすぎない。

Googleアシスタントは話題にフォーカスする仕組みを持っている。「ビートルズについて教えて」と尋ねたら、次の質問もそれに関連したものだと理解してくれる。

iriやAlexaでは、前後の質問の関連性を捉えられない。「どんな曲がある?」と尋ねても、その質問がビートルズの話題だとは認識できないのだ。

Siriは外部から聞こえる音楽を解析して、曲名を教えてくれる機能を搭載している。喫茶店などで流れている気になる曲を調べたいときにとても便利だ。

文●牧野武文

フリーライター。iPhoneとテザリングしたスマートスピーカを、ブルートゥースでカーオーディオに出力する人が近ごろ増えているらしい。運転しながら、音声操作で音楽やラジオ番組を再生できるだけでもかなり便利そうだ。