Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

TrueDepthカメラの仕組みとテクノロジー

著者: 今井隆

TrueDepthカメラの仕組みとテクノロジー

読む前に覚えておきたい用語

ToF(Time of Flight)

ToFは光学式測距センサでよく使用される方式で、対象に照射した光が反射して戻ってくるまでの(往復の)時間から距離を計測する。光は1ナノ秒に30センチの速度を持つが、これを光の周波数(波長)に応じた位相差を計測することで対象との距離を求めることができる。かつてオートフォーカスにも利用されていた。

VCSEL(Vertical Cavity Surface Emitting Laser)

VCSELは半導体レーザの一種である垂直共振面発光レーザの略称。従来の半導体レーザが基板面と平行方向に光を共振させるのに対して、VCSELは基板面に垂直方向に光を共振させる。小型軽量化に適しており消費電力が小さい、二次元アレイ構造化が可能などのメリットがある。

DOE(Diffractive Optical Element)

光の回折現象を利用してレーザなどの光の照射パターンを制御する光学素子のこと。近年ホログラムや半導体用フォトマスクなどの微細加工技術を用いることで、高い回折効率を持った光学素子が各社で開発されており、ドットプロジェクタにもその技術が応用されている。

トゥルーデプスカメラを構成する複数のセンサ類

iPhone Xに搭載された「トゥルーデプス(TrueDepth)カメラ」は、複数のセンサモジュール群と「アップルA11バイオニック(Bionic)チップ」による高度な処理の組み合わせによって実現される3Dセンシング技術だ。具体的には、ユーザの顔までの距離を正確に計測する近接センサと、ユーザの顔形状を計測するためのドットパターンを照射するドットプロジェクタ、顔認識に必要なイメージを取得する2種類のカメラ、カメラから送られた画像を処理するイメージプロセッサと、そこから個人を判定したり表情を読み取る認識エンジン(ニューラルエンジン)で構成されており、これらの緻密な連携処理によって高速かつ高精度な顔認識機能、すなわち「フェイスID(Face ID)」をユーザに提供している。

顔認識の最初のステップでは、まず近接センサがユーザの顔の接近を検出するところから始まる。その検出に用いられるのが、赤外線レーザを光源に用いるToF方式の測距センサモジュールで、赤外線レーザを対象に向けて照射し、その光が対象から反射して戻ってくるまでの時間を計測することにより、対象までの距離やその動きを正確に計測することができる。

このようなレーザ測距システムは、従来スマートフォンに入れるには難しいサイズや消費電力だったが、垂直共振面発光型半導体レーザ(以下、VCSEL)の採用によって測距センサモジュールの大幅な小型化と低消費電力化が可能になり、携帯機器への導入が実現できるようになった。iPhone Xに採用されている測距センサモジュールは、その中でも極めて小型のモジュールを搭載しており、わずか数ミリメートル角の小さなチップ内にレーザ光源とその光学系、さらに受光センサアレイと距離を計測する演算ユニットまでをワンパッケージ化したモジュールを搭載している。

ユーザの顔の位置や距離が特定されると、次のステップでは顔形状を計測するために赤外線の点パターンがドットプロジェクタから放射される。ドットプロジェクタは測距センサモジュールと同じくVCSELをその光源として使用し、そのレーザ光を微細回析光学素子(以下、DOE)を用いて数万個のドットビームへと変換して対象に放射する。

DOEは、従来のレンズやミラーなどの光学系に比べて大幅な小型軽量化を実現しながらも、高い精度で狙った場所にビームを配光させることができる新しい光学素子だ。この技術を使うことで、iPhone Xは非常に小さく軽量で低消費電力のドットプロジェクタを、わずかなスペースの中に搭載することを実現している。

iPhone Xに近づいたユーザの顔を捉えるのは、離れて配置された2つのカメラモジュールだ。中央部にはRGBカメラ(可視光線を撮影する普通のカメラ)、少し離れた位置には近赤外線用のカメラがそれぞれ配置されている。近赤外線カメラは、ドットプロジェクタから放射された数万個のドットビームの中から、ユーザの顔に投射されて反射してきた赤外線ドットを捉えてイメージプロセッサへとその画像を送る。一方で通常のRGBカメラは私たちが見たままのユーザの姿を捉えて、こちらもイメージプロセッサへとその画像を送り出す。

ユーザの顔の3D形状を計算するのは、アップルA11バイオニックチップの役割だ。顔の3D形状の計算には、あらかじめ登録されているドットプロジェクタが放射したドットパターンのリファレンス(基準)と、赤外線カメラが捉えたユーザの顔に投射されたドットパターン像が用いられ、両者の各ドット位置のズレから各ポイントの深度(対象までの距離)を三角法により算出していると推測される。

TrueDepthカメラを構成するモジュール群

左から、赤外線カメラ、投光イルミネータ、近接センサ、環境光センサ、フロントカメラ、ドットプロジェクタで構成されている。【URL】https://www.apple.com/jp/iphone-x/

ドットプロジェクタの様子

実際にiPhone Xに顔を向けてTrueDepthカメラを作動させ、これを赤外線も捉えるデジタルカメラで撮影した。センサハウジング内の左の小さな輝点が近接センサ、右の大きな輝点がドットプロジェクタによる赤外線レーザだ。

赤外線ドットによる顔形状の認識

iPhone Xはユーザの顔の接近を検出すると、赤外線ドットプロジェクタから数万個の赤外線レーザを放ち、ユーザの顔にドットパターンを表示する。これを赤外線カメラモジュールで撮影し、Apple A11 Bionicで処理することでユーザの顔形状を認識する。【URL】https://www.apple.com/jp/iphone-x/

基本構造がよく似ているマイクロソフトのキネクト

ドットパターンの赤外線レーザ光を対象物に照射し、それを赤外線カメラで読み取ることで対象の3D形状を計測するセンサは、実はiPhoneのトゥルーデプスカメラが初めてではない。

2010年11月にマイクロソフトが同社の家庭用ゲーム機の周辺機器としてリリースした「キネクト(Kinect)」は、トゥルーデプスカメラと同じく赤外線レーザ光を用いたドットプロジェクタと、RGBカメラおよび赤外線カメラの3コンポーネントで構成されたデバイスだった。

ユーザに特定のドットパターンを照射し、これを赤外線カメラで捉えてオリジナルパターンとのズレから3D(距離)情報を取得するというアプローチは両者に共通のテクノロジーだ。実際に、この初代キネクトの開発に携わったイスラエルの3Dセンサ企業プライムセンス(PrimeSense)は2013年11月にアップルに買収されており、同技術がアップルでトゥルーデプスカメラの開発に活かされた可能性が高い。

ただし両者の技術には相違点も少なくない。全体的な動作原理は類似しているものの、キネクトが捉えるのは部屋中のエリアにいるユーザの全身像であり、そこからユーザの姿勢や手足の動きを識別し、ジェスチャーコマンドとしてゲームなどのアプリケーションの操作に利用することが目的となっている。

これに対してトゥルーデプスカメラが捉えるのはあくまでユーザの顔や表情のみで、認識エンジンは顔の特徴から個人の判定を行ったり、表情を読み取ってコマンドに変換する用途に用いられている。また両者のサイズには圧倒的な違いがあり、キネクトが長さ数十センチのバー状のデバイスであるのに対して、トゥルーデプスカメラは厚さ数ミリしかないiPhone XのOLEDスクリーンのわずかなくぼみ「センサハウジング」部分にすべてが収められているのだから驚きだ。

現在トゥルーデプスカメラは、ログイン時のユーザ認証フェイスIDと、「メッセージ」アプリでのアニ文字、「カメラ」アプリのポートレートモードなどに使用されている。ポートレートモードでは、トゥルーデプスカメラから得られた深度情報によって高精度な被写体と背景の分離が可能となり、より自然なエッジ(被写体境界)処理が実現されている。

トゥルー デプスカメラの機能はiOS 11で追加されたデプスAPIから利用できるため、同機能を用いたサードパーティ製の画期的なアプリが登場することも期待できる。またARKitと組み合わせることで、さらに未知のユーザ体験を実現することも不可能ではない。iPhone Xに搭載されたトゥルーデプスカメラの活用はまだ始まったばかりだと言えるだろう。

ドットプロジェクタと2つのカメラ

iPhone Xに搭載されている実際のドットプロジェクタと2つのフロントカメラモジュール。左がRGBカメラ、右が赤外線カメラで、2つのカメラの間には、スピーカ、マイク、近接センサ、環境光センサなどが配置される。【URL】https://jp.ifixit.com/

今井 隆

IT機器の設計歴30年を越えるハードウェアエンジニア。1983年にリリースされたLisaの虜になり、ハードウェア解析にのめり込む。