※この記事は『Mac Fan』2024年1月号に掲載されたものです。
会議や商談の内容をAIでテキスト化!
会議や商談、面接などのシーンにおいて、録音した音声を書き起こす“文字起こし”の工程に時間を取られている人も多いことでしょう。
そこで活用したいのが、音声を自動でテキスト化する技術です。「音声認識」に関する技術自体は以前から存在していたものの、これまでは認識精度がそこまで高くないサービスが多かったほか、認識するのが英語など特定の言語のみといったものも多々ありました。
それがAI(人工知能)技術の進化やハードウェアの処理性能の高速化によって大きく変化し、現在ではより実用的になりました。
今回取り上げるアプリ「Whisper Transcription」は、生成AI技術として話題のChatGPTの開発元が提供する音声認識技術「Whisper」をベースに開発されています。
同アプリは音声を認識してテキスト化する機能のほか、設定次第では同時に他言語への翻訳まで行えるのがポイントです。
もちろん認識精度や翻訳結果がいかに優れていても、テキスト化した内容をそのまま議事録に残したり人に見せたりできるわけではなく、手を加えて整える工程は必要でしょう。
しかし音声の書き起こしを同アプリに任せることで、テキスト化した文章の調整作業に時間を割けるようになるのです。よく「人間が行っていた作業をAIが肩代わりすることで、空いた時間を有効活用できる」といわれるように、筆者もAIのメリットを如実に感じています。
「Whisper Transcription」には、多彩な言語モデルが用意されています。ちなみに、この場合の言語モデルとは、特定の言語を認識するためにトレーニングされたモジュールのこと。
スピード重視か認識精度重視か、好みの言語モデルを選べる!
同アプリでは、認識させたい言語や処理のスピード、精度に応じて言語モデルを都度選択できるのがポイントです。
なお、有料のプロ版では、より学習データが多いモデルも選択可能。筆者も認識精度を重視したプロ版の言語モデルを選択して利用することがほとんどです。
英語や中国語が飛び交う会話も、複数言語を翻訳できちゃう!
なお、同アプリには英語専用の言語モデルと、100以上の言語をサポートしたマルチランゲージモデルが用意されており、日本語の認識は後者で行います。
マルチランゲージモデルは複数の言語が混ざった音声の一括認識にも対応しており、使用されているのがどんな言語かわからなくても自動判別されるのが特徴。
たとえば母国語として英語を扱わない企業の従業員とリモート会議する場合、英語が苦手な参加者がいるかもしれません。その場合、部分的に第一言語で話してもらったほうがニュアンスを伝えてもらいやすいでしょうし、このソフトがあれば、それがどんな言語か自分ではわからなくても翻訳できるわけです。
特にビジネスで海外の企業とやりとりが多い方や外国語を話す友人がいる方は、ぜひとも活用してみてください。
認識したテキストそれぞれに話者の名前を割り当てて表示する機能もありますが、現状は手作業で行わないといけません。
欲をいえば、声を識別して自動で話者まで認識してくれたら一層“やみつき度”が増すでしょう。しかし、現状でも十分すぎるほどに優秀な相棒であることは間違いありません。
リアルタイムに文字起こししたいなら、「UDトーク」アプリもおすすめ!
「UDトーク」は、コミュニケーションの「UD=ユニバーサルデザイン」を支援するツール。音声認識機能により声をリアルタイムでテキスト化し、同時に他言語に翻訳できるなど多数の機能を備えています。
本来はiPhone/iPad向けに展開されていますが、Appleシリコンを搭載するMacシリーズでも動作します(筆者のマシンでは問題なく機能しています)。
たとえば筆者がMacで「Keynote」を開いてプレゼンテーションを行う際、そのウインドウの隣で「UDトーク」を開けば、聴覚障害を持つ人も内容を理解しやすくなるわけです。
なお、無料プラン利用時は入力された音声データが認識機能の改善に利用されますが、有料プランではこれが収集されません。よりプライバシーを重視したいシーンでは有料プランを選びましょう。
著者プロフィール
大谷和利
1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、原宿AssistOn(www.assiston.co.jp)取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。