精度がめざましく向上したシリ
この数年ほどで、シリの性能がめざましく向上した。昨年、グーグルがグーグルナウの音声認識精度(単語誤り率)を23%から8%に改善したという発表をした。すると、アップルはすぐに「シリの音声認識精度は、以前の45%から5%に改善されている」と発表を行った。最近のシリを使ってみれば、この精度は実感できる。室内の静かな環境では、ほぼ誤りなく認識してくれる。屋外環境(自動車のロードノイズは音声認識の天敵だ)でも、以前はほとんど使いものにならなかったが、現在は実用の範囲内だ。個人的には、リマインダやスケジュールの入力や電話、メッセージ発信のトリガーとして、また、Jリーグの結果や株価を調べるときに愛用している。
このようにシリが実用レベルに達した背景には、最近大きな話題になっている「ディープラーニング」技術の成果が関係している。
過去50年に2度あった「人工知能ブーム」
シリがディープラーニングを採用していると聞くと、シリの会話の受け答えに使われていると思う人もいるはずだ。しかし、ディープラーニングが使われているのは音声認識の部分。なぜなら、ディープラーニングが得意なのは「パターン照合」だからだ。ディープラーニングは、人間のようなウィット、知性、とんちといったものを生み出すわけではない。あいまいな発音であっても、過去の学習経験からパターン認識をして正しい言葉に変換する。これがディープラーニングの得意な分野なのだ。
人工知能の研究は、その名前のとおり人間の脳神経の発達をコンピュータで模倣することから始まった。無数の仮想的な人工神経細胞を想定し、学習をすると関係のある神経細胞間の連絡に得点が与えられる(神経が太くなる)。たとえば、「赤いリンゴ」という文章を学習すると、「赤い」と「リンゴ」の間の神経が太くなり、そのようなニューラルネットワークに「リンゴは何色?」と尋ねれば、「赤い」と答えてくれるわけだ。
しかし、こんな単純なものではたいしたことはできない。そこで、ニューラルネットワークの演算単位としてパーセプトロンが考案された。これは、ソフトウェア化することも半導体にすることも可能で、「なんでも学習できる」として1960年頃に第一次人工知能ブームが起こった。
しかし、すぐに著名な人工知能研究者、マービン・ミンスキーとシーモア・パパートがパーセプトロンの欠陥を指摘した。XOR(排他論理和)演算を含む問題については、パーセプトロンは正確な予測推論ができない。しかも、世の中の大概の問題にはXOR演算が含まれるというものだった。これで第一次ブームはあっという間に消えてしまった。
その後、XOR問題を解決にするにはパーセプトロンを多層化すればいいことがわかり、1986年に予測精度を大幅に高める誤差逆伝播法などが考案されると、再び人工知能ブームが起こった。
しかし、これもすぐに沈滞してしまう。精度を上げるにはパーセプトロンの層を増やしていけばいいのだが(現在では20層なども当たり前になっている)、そうなると計算量が膨大になるので当時のコンピュータには荷が重い。さらに、学習させるための教材のほとんどは手作業で用意しなければならないので、大量には用意できないという問題が立ちはだかった。これで第二次ブームはすっかり沈滞してしまった。
勝手に学んでくれるディープラーニング
ところが、2000年頃にこの2つの問題が解決された。コンピュータの性能が飛躍的に高まり、学習教材はネット上に無数に転がっているからだ。これを利用して、パーセプトロンの層の数を一気に増やしたものが前述のディープラーニングだ。
このディープラーニングを使って、2012年にトロント大学のヒントン教授のチームが画像認識コンテストで圧倒的な差で優勝した。ここから第三次の人工知能ブームが始まった。その後ヒントン教授はグーグルにも籍を置き、画像認識の研究に携わっている。
このディープラーニングが世界を驚かせたのは、「特徴量」を自動生成するということだった。たとえば、顔写真を見て性別を見分ける課題に挑戦するとしよう。人間であれば「顔の面積と、目、鼻、口の各パーツの面積の比」などを手がかりに男女を見分けるだろう。あるいは、下顎の形などが手がかりになるかもしれない。このように「どこに注目したらいいか」は、その分野の専門家が導き出す必要があり、従来は人工知能にあらかじめ「ここを見るべき」と教えてやる必要があった。
ところが、ディープラーニングは単なる多層化ではなく、ミルフィーユのように「分析」「特徴抽出」の層を重ねて、うしろの層になるほど高次元の認識や大局的な認識ができるように設計されている。つまり、特徴量さえも学習しながら自動生成できるのだ。
そのため、画像を学習をさせるには画像を大量に読み込ませるだけでいい。「どこに注目すれば見分けられるか」は、ディープラーニングが勝手に「考えて」くれるのだ。もちろん、優れたディープラーニングの設計は難易度が高く、「世界で50人ほどの研究者しか優れたディープラーニングは設計できない」ともいわれるほどだ。だが、使うだけであれば大量データを読み込ませればいいだけなので誰でも利用できる。ここが、第三次人工知能ブーム(正確にはディープラーニングブーム)が起きた要因になっている。
さまざまな分野に応用できる
大量データを読み込ませるだけでパターン照合してくれる簡単さから、ディープラーニングはさまざまな分野に応用され始めている。画像解析はもっとも使われている分野で、男女の性別識別などでは、人間の正答率を超えている例が続々と報告されている。
また、自動車のドライバーレスカー(道路状況をパターン認識し、その状況での最適な運転戦略を実行する)、投資(相場動向をパターン認識し、高騰/下落するパターンと照合する)、フィンテック(企業情報を成功した企業のパターンと照合する)など、さまざまな応用がすでに始まっている。
注意していただきたいのは、今の人工知能ブームの中核はディープラーニング、つまりパターン照合であるということだ。従来のニューラルネット的な部分も進化はしているが、劇的なブレイクスルーがあったわけではない。つまり、シリの会話のやりとり自体は従来のニューラルネット技術が使われているので、これが急に「人間らしく」なったわけではない。あくまでも音声認識の精度を上げるためにディープラーニングを用いて的確に答えてくれるので、結果として人間らしさを私たちが感じているのだ。
デモをする前に、特定の写真を選ぶよう指示が出る。これは、スクリプトでアクセスをしてサーバに負荷を与えるいたずらを防止するため、人間にしかできない作業をさせているのだ。実はこの回答も、ディープラーニングの学習に利用されている。
【知恵の実の実】
グーグル・フォトは、自動で写真をバックアップしてくれてタグ分類も自動で行ってくれる。ここにもディープラーニングが使われていて、多少の誤りはあるが驚くほど正確にタグを付けてくれる。
【知恵の実の実】
マイクロソフトがLINEで公開している「りんな」には、会話のやりとりにディープラーニングが使われている。シリやコルタナのように生産性向上のためのアシスタント機能ではなく、ユーザの気分など「感情」の解析に利用されているのが特徴だ。