Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

Macでササっと文字起こし! アプリ 「Whisper Transcription」レビュー。英語、中国語にも対応する優れもの!

著者: 大谷和利

Macでササっと文字起こし! アプリ 「Whisper Transcription」レビュー。英語、中国語にも対応する優れもの!

※この記事は『Mac Fan』2024年1月号に掲載されたものです。

会議や商談の内容をAIでテキスト化!

会議や商談、面接などのシーンにおいて、録音した音声を書き起こす“文字起こし”の工程に時間を取られている人も多いことでしょう。

そこで活用したいのが、音声を自動でテキスト化する技術です。「音声認識」に関する技術自体は以前から存在していたものの、これまでは認識精度がそこまで高くないサービスが多かったほか、認識するのが英語など特定の言語のみといったものも多々ありました。

それがAI(人工知能)技術の進化やハードウェアの処理性能の高速化によって大きく変化し、現在ではより実用的になりました。

今回取り上げるアプリ「Whisper Transcription」は、生成AI技術として話題のChatGPTの開発元が提供する音声認識技術「Whisper」をベースに開発されています。

Whisper Transcription

【開発】
Good Snooze
【価格】
無料(アプリ内課金あり)   ※Pro版は年額2200円もしくは買い切り6000円

同アプリは音声を認識してテキスト化する機能のほか、設定次第では同時に他言語への翻訳まで行えるのがポイントです。

もちろん認識精度や翻訳結果がいかに優れていても、テキスト化した内容をそのまま議事録に残したり人に見せたりできるわけではなく、手を加えて整える工程は必要でしょう。

しかし音声の書き起こしを同アプリに任せることで、テキスト化した文章の調整作業に時間を割けるようになるのです。よく「人間が行っていた作業をAIが肩代わりすることで、空いた時間を有効活用できる」といわれるように、筆者もAIのメリットを如実に感じています。

  「Whisper Transcription」には、多彩な言語モデルが用意されています。ちなみに、この場合の言語モデルとは、特定の言語を認識するためにトレーニングされたモジュールのこと。

スピード重視か認識精度重視か、好みの言語モデルを選べる!

同アプリでは、認識させたい言語や処理のスピード、精度に応じて言語モデルを都度選択できるのがポイントです。

言語の種類や重視する点(スピード重視か認識精度重視か)に応じて言語モデルを選びましょう。また言語モデルをダウンロードしておけば、インターネット接続がない環境でも利用できます。

なお、有料のプロ版では、より学習データが多いモデルも選択可能。筆者も認識精度を重視したプロ版の言語モデルを選択して利用することがほとんどです。

英語や中国語が飛び交う会話も、複数言語を翻訳できちゃう!

なお、同アプリには英語専用の言語モデルと、100以上の言語をサポートしたマルチランゲージモデルが用意されており、日本語の認識は後者で行います。

マルチランゲージモデルは複数の言語が混ざった音声の一括認識にも対応しており、使用されているのがどんな言語かわからなくても自動判別されるのが特徴。

相対性理論の概要を5つの言語で説明した音声ファイルを用意し、それらを一括で認識・翻訳してみました。言語ごとにニュアンスは多少異なりますが、見事に和訳されていることがわかります。

たとえば母国語として英語を扱わない企業の従業員とリモート会議する場合、英語が苦手な参加者がいるかもしれません。その場合、部分的に第一言語で話してもらったほうがニュアンスを伝えてもらいやすいでしょうし、このソフトがあれば、それがどんな言語か自分ではわからなくても翻訳できるわけです。

特にビジネスで海外の企業とやりとりが多い方や外国語を話す友人がいる方は、ぜひとも活用してみてください。

認識したテキストそれぞれに話者の名前を割り当てて表示する機能もありますが、現状は手作業で行わないといけません。

音声が文字起こしされた画面でテキストを右クリックすると、ポップアップメニューが表示され、それぞれに話者の名前を割り当てることが可能です。なお、話者の名前は赤丸で囲んだアイコンから登録することでポップアップメニューに表示されます。

欲をいえば、声を識別して自動で話者まで認識してくれたら一層“やみつき度”が増すでしょう。しかし、現状でも十分すぎるほどに優秀な相棒であることは間違いありません。

認識したテキストを書き出すことも可能です。フォーマットは豊富に用意されており、プレーンテキストやPDF、DOCX、CSVなどのほか、動画編集時に字幕をつける用途であればタイムコード付きのVTTファイルを選ぶこともできます。
スタート画面に表示される[Open Files…]ボタンをクリックするとファイルを読み込めるほか、Finderからメインウィンドウに直接ドラッグ&ドロップすることでも即座に認識が開始されます。なお、サポートしているファイル形式はMP3、WAV、M4A、MP4、MOVです。
オンライン上でURLが割り当てられている音声/動画ファイルであれば、そのURLを入力して認識させることも可能です。たとえば「YouTube」で利用する場合は、YouTubeに用意されている自動キャプション機能より高い精度で文字起こしされました。

リアルタイムに文字起こししたいなら、「UDトーク」アプリもおすすめ!

「UDトーク」は、コミュニケーションの「UD=ユニバーサルデザイン」を支援するツール。音声認識機能により声をリアルタイムでテキスト化し、同時に他言語に翻訳できるなど多数の機能を備えています。

本来はiPhone/iPad向けに展開されていますが、Appleシリコンを搭載するMacシリーズでも動作します(筆者のマシンでは問題なく機能しています)。

たとえば筆者がMacで「Keynote」を開いてプレゼンテーションを行う際、そのウインドウの隣で「UDトーク」を開けば、聴覚障害を持つ人も内容を理解しやすくなるわけです。

なお、無料プラン利用時は入力された音声データが認識機能の改善に利用されますが、有料プランではこれが収集されません。よりプライバシーを重視したいシーンでは有料プランを選びましょう。

著者プロフィール

大谷和利

大谷和利

1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、原宿AssistOn(www.assiston.co.jp)取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。

この著者の記事一覧

おすすめの記事