DarkDiffとは? カメラで捉えた信号を元に、細部を生成AIが復元する手法
DarkDifの内容は「DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP(DarkDiff:カメラISP向けに拡散モデルを再定義することで実現する、低照度RAW画像の高度な強調技術)」で公開されている。
DarkDiffは、画像生成AIでよく使われるディフュージョンモデルをカメラの信号処理に組み込むというものだ。簡単に言えば、カメラが捉えたわずかな信号を元に生成AIが細部を復元する。

実際にiPhoneに組み込むにはまだ課題が残されているというが、DarkDiffがiPhoneに搭載されたら議論を呼ぶだろう。それは、こうして得られたものは写真なのか、生成AIによる成果物なのかということだ。人が意図して写真を撮る一眼レフ派にすれば、これはもはや写真ではなく、ビジュアルメモにすぎないと主張するだろう。
一方、学習した生成AIが現実の細部を補っているだけであり、これこそが新しい写真の形だと主張する人もいるはずだ。
良くも悪くも、スマホのカメラは現実を写し取ることから離れ始めている。

1枚の写真から3Dモデルを生成するSharpも開発。AIが物体の奥行きを推定する
さらにAppleは、たった1枚の写真からフォトリアルな3D世界を生成する手法も確立した。こちらは「Sharp Monocular View Synthesis in Less Than a Second(Sharp:1秒以内の単一視点視覚生成)」で紹介されている。
Sharp(Single-image High-Accuracy Realtime Parallax)は1枚の写真から短時間で3Dモデルを生成する技術だ。過去に撮影された街の写真を処理すれば街の3D空間モデルを生成でき、Vision Proなどを装着すれば写真の中の世界を散歩できる。
このような3D空間を生成する伝統的な方法は、立体写真だ。複数の視点から撮影された写真を用意し、わずかな視差の違いから奥行き距離を割り出す。それらを元に、3D空間を生成していく。ただし、視点が異なる複数の写真が必要になる。
AppleのSharpだけでなく、1枚の写真から3D空間を生成する技術の開発も進んでいる。たとえば、画像生成に使われるディフュージョンモデルを使う方法だ。ただし、この手法では生成までの時間がかかり、なおかつ鮮明な3D空間を生成することは難しい。
一方Sharpは、学習済みのAIが写真に写っている物体の奥行きを推定し、3D空間を構成していくというものだ。


