※本記事は『Mac Fan』2023年7月号に掲載されたものです。
OpenAIが提供する音声認識モデルのAPI「Whisper」
大規模言語モデルを元に開発されたAI対話型チャットサービス「ChatGPT」が話題を呼んでいますが、開発元であるOpenAIは言語モデル以外にも「Whisper」という音声認識モデルのAPIを無償提供しています。そして最近、このWhisperを組み込んだMacソフトがApp Storeなどで登場し始めました。
Whisperは約68万時間の音声データによってトレーニングされており、高い認識精度を誇るのが特徴。「日本語の単語の誤り率は5.4%(英語は4.2%)」と聞くと試さずにはいられないので、Whisper Transcriptionを使って検証してみました。
3種の音声認識モデルから、精度と速度を選択できる!
Whisper Transcriptionをはじめて起動すると、利用言語と音声認識モデルのサイズの選択画面が表示されます。日本語の場合は[Multiple Languages]の中にある[Tiny][Base][Small]からサイズを選びましょう。サイズが大きいほど認識精度が上がる半面、処理速度が遅くなり、メモリ使用量も増える傾向があります。
定番の有料文字起こしツール「Notta」に匹敵する認識制度
今回はこの中でもっとも性能が高い[Small]を選択してみましたが、その実力はなかなかのもの。筆者が普段利用しているAI文字起こしサービス「Notta」の有料版と比較しても、認識結果に大差はありません。
有料版なら、音声認識モデルのアップグレードやリアルタイムの文字起こしにも対応!
また、Whisper Transcriptionはレコーディングしながらのテキスト変換や、ポッドキャスト音声のテキスト化(ベータ版)に対応するほか、有料のプロ版(3500円または年額1500円のサブスクリプション)にアップグレードすることで、より高性能な音声認識モデルの利用や、ソフトウェア音声からのテキスト起こしも可能になります。
その精度は飛び抜けて優れているわけではありませんが、現時点で高い水準にあるのは確か。有料サービスと比べてユーザインターフェイス(UI)やサポート面では劣るものの、基本機能を無料で使えるのは大きなメリットです。ぜひ、皆さんも試してみてください。書き出したテキストファイルをチャットGPTに渡して、要約や別の言語に翻訳するという用途にもぴったりでしょう。
著者プロフィール
栗原亮
1975年東京都日野市生まれ、日本大学大学院文学研究科修士課程修了(哲学)。 出版社勤務を経て、2002年よりフリーランスの編集者兼ライターとして活動を開始。 主にApple社のMac、iPhone、iPadに関する記事を各メディアで執筆。 本誌『Mac Fan』でも「MacBook裏メニュー」「Macの媚薬」などを連載中。