Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

全自動テキスト起こしがついに実現!?

著者: 栗原亮

全自動テキスト起こしがついに実現!?

音声を聞きながらテキストを入力する「文字起こし」の作業は結構重労働です。ところが、テクノロジーの力で全自動化するWEBサービスが登場しました。その実力はどのくらいか試験してみます。

全自動テキスト起こしがついに実現 !?

音声をテキストに自動変換

この連載では以前から取材などの音声ファイルをテキストに変換する「テキスト起こし」について、便利なソフトやテクニックを紹介してきました。しかし、どのツールであっても最終的には本人がテキストを手動で入力することには変わりありません。つまり、作業の負荷は軽くなることはあっても、手間がゼロになることはありませんでした。予算があれば外注したいくらい面倒なこの作業を、何とか自動化できないかというのは積年の課題でした。

そんな中、音声を自動認識してテキスト起こしできるWEBサービスが昨年末に登場しました。エンジニアのイソップ(五十川洋平)さんが開発した「ライター・アップ(Writer.app)」というこのWEBサービス、これがライターや編集者など私の同業者界隈でも大きな話題を呼んでいます。現在のところ音声認識をサポートするWEBブラウザは「グーグル・クローム」のみですが、試してみない手はありません。

実験は意外な結果に…

この音声認識機能を利用するには、いくつかの準備が要ります。音声ファイルをWEBブラウザ上で再生しても、音はMacのスピーカから出るだけでライター・アップには入力されません。そのため、音声をループバック再生する「サウンドフラワー」のインストールが必要です。これを使うとスピーカから出る音声をライター・アップに直接入力可能になるのです。

準備が整ったらライター・アップのWEBサイトに音声ファイルをアップロードし、音量や再生速度の設定を行い音声入力を開始して再生するだけです。

ループバック中なので再生している音声を聞けませんが、自動で画面のテキストエディタ部分にテキストが入力されて行くのは感動的ですらあります。

ところが、その認識結果は期待していたほどではありませんでした。確かに取材での音声は、シチュエーションによっては音が小さかったり背景のノイズが大きく認識されづらい傾向があるようです。とはいえ非常に期待できるサービスなので、なにか改善する方法がないか考えてみました。

SoundFlower

【開発】Cycling '74

【価格】無料

【URL】https://github.com/mattingalls/Soundflower/releases/tag/2.0b2

(1)GitHubより「Soundflower-2.0b2.dmg」をダウンロードしてインストールします。開発元未確認の警告が出るので、副ボタンクリックしてメニューから[開く]を選択します。

(2)システム環境設定の[サウンド]パネルで[出力][入力]ともに[SoundFlower(2ch)]を選択します。この状態ではMac本体からは音は聞こえなくなるので、作業後は設定を元に戻してください。

(3)Google Chromeで「Writer.app」にアクセスし、中央の[+]アイコンをクリックして音声ファイルをアップロードします。【URL】https://writer-app.com

(4)波形が表示されるので、[音量]を[100]にまで上げ、[再生速度]を[0.95×]程度に落とします。音声入力ボタン(マイクのアイコン)をクリックしたら、[Play]ボタンで再生します。

(5)すると、音声認識によるテキスト入力が開始されます。ループバック再生のため音声内容は確認できませんが、10秒前後ごとに文章が表示されたら成功です。

(6)同じ音声でも、再生速度を変更すると認識結果の精度に違いが出ることがあります。背景にノイズがある音声では認識率は低い傾向がありました。

 

音声をクリアにすれば認識率がアップ?

音声をクリーニングしてみる

とはいえ、すでに収録してしまった音声ファイルを録り直すわけにはいきません。そこで、音声ファイルを加工できる無料ツール「オーダシティ(Audacity)」を利用してみることにしました。本ソフトは、非常に豊富な波形編集機能を持っています。具体的な手順は省略しますが、レベルを適正にしたり、背景のノイズを軽減するフィルタなどを利用することで元の音声をお掃除できました。

そして、再度ライター・アップに読み込ませて、音声認識を実施したところ、先ほどよりはテキストの入力がスムースに行われているように感じました。もちろん誤認識や、認識できない部分も残ってはいるのですが、何もしないときよりはわずかに改善していることが確認できました。

あとで音声認識させることを意識して、ゆっくり目にはっきりと話すようにすればもっと認識率は向上するのではないでしょうか。

外部マイクを利用してみる

しかし、毎回音声をソフトで補正するのは大変ですし、そもそも音声を収録しているマイク自体にも原因があるのではないかと疑念が湧いてきました。私の場合、普段は音質よりも利便性や作業のワークフローを考えてiPhoneのレコーダアプリを利用していますが、専用のボイスレコーダのほうが音質面で期待できるはずです。

そこで、ライトニングコネクタに接続できるズームのマイク「iQ6」を利用して収録してみることにしました。マイクの指向性を切り替えたり、音声入力の感度をダイヤルで調整できるので、最初から狙いどおりの音質にセッティングできるのが利点です。

実際に録音した音声を聞き返すと、すでにクリアな音質になっていることが確認できました。これをライター・アップで音声認識させたところ、オーダシティで補正した音声と同等かそれ以上の認識精度になりました。こちらのほうが確実に楽といえましょう。

まだまだ発展途上ではありますが(ライター・アップは背後で動いているグーグル音声入力の認識精度に依存します)、全自動のテキスト起こしは実用レベルにまで近づいてきたといえるでしょう。

Audacity

【開発】Audacity Team

【価格】無料

【URL】https://www.audacityteam.org

(1)音声ファイルを「Audacity」に読み込んでノイズを補正してみることにしました。音声全体の音量(ゲイン)を上げることもできますので、波形が小さいときは試してみましょう。

(2)[エフェクト]メニューに[ノイズ除去]があります。最初は波形からノイズ部分のみを選択して[ノイズプロファイルの取得]を行い、次に音声全体を選択して[OK]をクリックします。

(3)オーディオの書き出し機能でファイル形式を選択して保存します。iPhoneのボイスメモの場合は[WAV 16bit PCM]で構いません。

(4)読み上げに利用した元の文章と、Writer.appの音声認識による文字起こし文章を比べてみました。ところどころ聞き取れていない部分はありますが、全体の文意は汲み取れるレベルです。

(5)iPhone用のXYステレオマイク「ZOOM iQ6」を使って録音してみました。マイク本体側で集音の角度や感度の調整ができるので、ノイズの少ない録音が可能です。

(6)Audacityで波形を確認すると、ステレオ音声でバランスも最初から良い状態です。このままWriter.appの音声認識にかけてみることにしました。

(7)(4)と同じ文章をZOOM iQ6で収録してWriter.appにかけた結果です。誤認識や漏れはありますが、原稿に書き起こす前の確認であれば十分に使えるレベルではないかと思われます。