Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

iPhoneが手話を理解する未来? アクセシビリティ機能「ヘッドトラッキング」の進化。そして、ハンドジェスチャを認識するAppleの新たな特許技術

著者: 牧野武文

iPhoneが手話を理解する未来? アクセシビリティ機能「ヘッドトラッキング」の進化。そして、ハンドジェスチャを認識するAppleの新たな特許技術

2025年3月、Appleがユニークな特許技術を公開した。それはハンドジェスチャをわずか数回見せるだけで、それを学習するというものだ。

現在のiPhoneにも、顔の表情でiPhoneを操作する「ヘッドトラッキング機能」が搭載されている。空間コンピューティングの時代を迎えて、タッチしない操作法が主流になっていくかもしれない。

食事しながらiPhone、は当たり前。そんなときに便利な「表情で操作」する機能

行儀としては決して褒められたものではないものの、スマートフォンを見ながら食事する光景は珍しくなくなった。筆者も、自宅で一人で食事をするときには、iPhoneをスタンドに立てて、ドラマを観たりニュース記事を読んだりする。外食するときもそうだ。定食屋などに一人で入ったら、ブログ記事などを読んでいる。

あるいはくつろいだ時間に、ポテトチップスやチョコを食べながらiPhoneでドラマを観る。単身者にとっては特に、スマートフォンはもはやテレビの地位を完全に奪ったと言えるだろう。

こういったシーンに役立つ、面白い操作法が広がり始めている。お菓子を食べているときは指が汚れていることが多いので、なるべくiPhoneに触りたくない。そこで、舌を出すことで動画を早送りしたり、ページめくりをするというものだ。

iPhoneをスタンドに立て、ドラマなどを観ながら食事をすることは、珍しい光景ではなくなっている。Geminiにより生成。




「舌を出す」でiPhoneをタップしたりスクロールしたり。アクセシビリティ機能の活用法

「設定」アプリ→[アクセシビリティ]で[ヘッドトラッキング]をオンにすると、さまざまな表情を“ジェスチャ”として使えるようになる。たとえば「眉を上げる」「笑う」「舌を出す」「眼をまばたく」といった表情をすると、画面をスクロールしたり、ショートカットを実行したりすることが可能だ。

このヘッドトラッキング機能を使って、「舌を出す」でタップやスクロールを行わせながら食事をする人が増えているというのだ。

ヘッドトラッキングの仕組みは、iPhoneのフロントカメラによって、指定された動作をしているかAIが判定するというものだ。

元々は指に不自由がある人のための機能だが、そうでない人も「目をまばたく」に「スクリーンショット」や「フラッシュライト」「画面の向きをロック」を設定しておくと、かなり便利に使えるだろう。

iPhoneのヘッドトラッキングをオンにすると、iPhoneに触ることなく、さまざまな操作が実行できる。特に「目をまばたく」は使い勝手がいいのでおすすめだ。

Appleデバイスがハンドジェスチャを認識。しかも独自のジェスチャを登録できる

Appleはヘッドトラッキングの仕組みをさらに発展させ、2025年3月6日にある特許を取得した。それは「VISION-BASED HAND GESTURE CUSTOMIZATION(視覚に基づく手のジェスチャのカスタマイズ)」というもので、手のジェスチャに関する特許だ。これが発展すると、Appleデバイスは手話を理解する。つまり、Appleデバイスに対して手話で指示を出せるようになるわけだ。

この特許技術は、自分でジェスチャを決められる、という点が素晴らしい。デバイスに1回から数回程度ジェスチャを見せるだけで、そのジェスチャを記憶し、機能と紐づけてジェスチャコマンドとして機能するようになる。

たとえばOKサイン、親指を突き出したサイン、また、両手を使ってハートマークをつくるといったハンドジェスチャはもちろん、ダイナミックなジェスチャにも対応する。両手を前に出して離したり近づけたりする動作を「ピンチ」とし、画面を拡大縮小することも可能だ。

ハンドジェスチャの例。手の形だけでなく、動作も理解できる。そのため、両手を広げるとピンチアウトするといった操作の実行も可能だ。




特許の革新は「ジェスチャの記憶方法」。手話の理解にも貢献する可能性

しかし、なぜ数回見せるだけでジェスチャを記憶できるのか。これがこの特許技術の核心だ。一般的に、AIはこのような動きを学習するために大量のサンプル学習を必要とする。学習が不十分だと、似たジェスチャを混同してしまうのだ。

Appleはこのような問題を解決するため、手を認識する際、手の映像から骨格と関節を抽出し、42のポイントがある骨格の動きとして学習する方法を採った。これによりジェスチャが単純化され、少ない学習で理解できるようになったという。

この特許技術では、ハンドジェスチャを認識する際、手を映像として捉えるのではなく、骨格を認識する。これにより、どのような角度でジェスチャを見せても、1回から数回の学習でジェスチャを記憶するのだ。

Appleは、この技術を使うことでデバイスが手話を認識できる可能性に言及した。ここでも、自分でジェスチャを覚えさせられる、という点が非常に実用的である。なぜなら、手話は国によってかなり異なっていたり、新語に対しては揺らぎがあったりするからだ。

「世界共通語」が存在しない手話。Appleの特許は、その自由さをサポートする

手話には「世界共通語」に相当するものが存在しない。オリンピックなどでは国際手話が使われるが、これは各国の手話の共通部分を集めたサブセットであり、広範な話題を表現することは難しいという。

また、新語に関しては各自が手話を考案し、それが普及する中でもっともよく使われるものに集約されていくというボトムアップ方式でつくられていく。

たとえば「推し」(自分が応援する人など)は、「応援」「好き」という2つの手話を組み合わせて表現するのが主流だ。しかし若い手話者の間では、胸の前でハートマークをつくり、それを前に押し出すようなジェスチャが人気だという。いわば、書面語と俗語のような関係になっている。

Appleのこの技術がAppleデバイスに搭載されれば、国際的に共通する手話部分だけを学習させたデータセットをAppleが提供し、足らない部分は自分で補うことができる。また、俗語に相当するジェスチャを使いたい場合はそれを覚えさせることが可能だ。また、異なる手話同士の通訳をすることも難しくなくなるだろう。




Apple創業以来の設計思想「direct」。ハンドジェスチャの特許は、“らしさ”が詰まっている

この特許は、技術的にはあまり注目されないかもしれないが、Appleらしさが詰まっている。Appleが創業の頃から目指してきた方向にマッチするものだからだ。

Appleは「User Interface Guideline」などの文章の中で、何度も「direct」(直接的)という言葉を使っている。目の前の操作対象(オブジェクト)を直接操作できることがもっとも優れている、という設計思想だ。

たとえばトンカチという道具は、はじめて見た子どもでも、わずかな試行錯誤でどこを握るべきかを理解できるだろう。そして、先端の重たい部分を重力を利用して振ることで板を割ったり、大きな音を出すなど、人間の力を拡張する道具だと学びとれる。こういったdirectさは、人間を成長させる効果があるのだ。

GUI、マウス、マルチタッチディスプレイに空間コンピュータ。「direct」を目指すAppleの歩み

ところが、コンピュータの中のデータに直接手で触れることはできない。そこで、データをアイコンという名の小さな絵で表した。それでもアイコンに触れることはできないため、マウスという道具を使い、ポインタを指先だと考えて操作する仕組みを考案した。これが1984年のMacintoshだった。

それぞれの要素を発明したのは必ずしもAppleではないが、世の中に普及させたのはAppleの功績だ。

2007年にはマルチタッチディスプレイが登場し、Appleは現在のiPhoneと同じように指で操作ができるiPod Touchを発表した。マウスは不要となり、指で直接ディスプレイ上のデータに触れることができるようになったのだ。

そして、2024年にはVision Proが発売され、空間コンピューティングという新しい時代が始まった。データはアイコンではなく、仮想物体として空間に浮かぶようになる。これを操作するのにもっとも適しているのは手だ。あくまで仮想物体なので、直に触ることはできなくても、触っているかのように操作できる。

Appleは、ハードウェアの進化と新たな機能によって、今も「direct」という設計思想に向けて歩み続けている。




おすすめの記事

著者プロフィール

牧野武文

牧野武文

フリーライター/ITジャーナリスト。ITビジネスやテクノロジーについて、消費者や生活者の視点からやさしく解説することに定評がある。IT関連書を中心に「玩具」「ゲーム」「文学」など、さまざまなジャンルの書籍を幅広く執筆。

この著者の記事一覧

×
×