音声を聞きながらテキストを入力する「文字起こし」の作業は結構重労働です。ところが、テクノロジーの力で全自動化するWEBサービスが登場しました。その実力はどのくらいか試験してみます。
全自動テキスト起こしがついに実現 !?
音声をテキストに自動変換
この連載では以前から取材などの音声ファイルをテキストに変換する「テキスト起こし」について、便利なソフトやテクニックを紹介してきました。しかし、どのツールであっても最終的には本人がテキストを手動で入力することには変わりありません。つまり、作業の負荷は軽くなることはあっても、手間がゼロになることはありませんでした。予算があれば外注したいくらい面倒なこの作業を、何とか自動化できないかというのは積年の課題でした。
そんな中、音声を自動認識してテキスト起こしできるWEBサービスが昨年末に登場しました。エンジニアのイソップ(五十川洋平)さんが開発した「ライター・アップ(Writer.app)」というこのWEBサービス、これがライターや編集者など私の同業者界隈でも大きな話題を呼んでいます。現在のところ音声認識をサポートするWEBブラウザは「グーグル・クローム」のみですが、試してみない手はありません。
実験は意外な結果に…
この音声認識機能を利用するには、いくつかの準備が要ります。音声ファイルをWEBブラウザ上で再生しても、音はMacのスピーカから出るだけでライター・アップには入力されません。そのため、音声をループバック再生する「サウンドフラワー」のインストールが必要です。これを使うとスピーカから出る音声をライター・アップに直接入力可能になるのです。
準備が整ったらライター・アップのWEBサイトに音声ファイルをアップロードし、音量や再生速度の設定を行い音声入力を開始して再生するだけです。
ループバック中なので再生している音声を聞けませんが、自動で画面のテキストエディタ部分にテキストが入力されて行くのは感動的ですらあります。
ところが、その認識結果は期待していたほどではありませんでした。確かに取材での音声は、シチュエーションによっては音が小さかったり背景のノイズが大きく認識されづらい傾向があるようです。とはいえ非常に期待できるサービスなので、なにか改善する方法がないか考えてみました。
SoundFlower
【開発】Cycling '74
【価格】無料
【URL】https://github.com/mattingalls/Soundflower/releases/tag/2.0b2
(1)GitHubより「Soundflower-2.0b2.dmg」をダウンロードしてインストールします。開発元未確認の警告が出るので、副ボタンクリックしてメニューから[開く]を選択します。
(2)システム環境設定の[サウンド]パネルで[出力][入力]ともに[SoundFlower(2ch)]を選択します。この状態ではMac本体からは音は聞こえなくなるので、作業後は設定を元に戻してください。
(3)Google Chromeで「Writer.app」にアクセスし、中央の[+]アイコンをクリックして音声ファイルをアップロードします。【URL】https://writer-app.com
音声をクリアにすれば認識率がアップ?
音声をクリーニングしてみる
とはいえ、すでに収録してしまった音声ファイルを録り直すわけにはいきません。そこで、音声ファイルを加工できる無料ツール「オーダシティ(Audacity)」を利用してみることにしました。本ソフトは、非常に豊富な波形編集機能を持っています。具体的な手順は省略しますが、レベルを適正にしたり、背景のノイズを軽減するフィルタなどを利用することで元の音声をお掃除できました。
そして、再度ライター・アップに読み込ませて、音声認識を実施したところ、先ほどよりはテキストの入力がスムースに行われているように感じました。もちろん誤認識や、認識できない部分も残ってはいるのですが、何もしないときよりはわずかに改善していることが確認できました。
あとで音声認識させることを意識して、ゆっくり目にはっきりと話すようにすればもっと認識率は向上するのではないでしょうか。
外部マイクを利用してみる
しかし、毎回音声をソフトで補正するのは大変ですし、そもそも音声を収録しているマイク自体にも原因があるのではないかと疑念が湧いてきました。私の場合、普段は音質よりも利便性や作業のワークフローを考えてiPhoneのレコーダアプリを利用していますが、専用のボイスレコーダのほうが音質面で期待できるはずです。
そこで、ライトニングコネクタに接続できるズームのマイク「iQ6」を利用して収録してみることにしました。マイクの指向性を切り替えたり、音声入力の感度をダイヤルで調整できるので、最初から狙いどおりの音質にセッティングできるのが利点です。
実際に録音した音声を聞き返すと、すでにクリアな音質になっていることが確認できました。これをライター・アップで音声認識させたところ、オーダシティで補正した音声と同等かそれ以上の認識精度になりました。こちらのほうが確実に楽といえましょう。
まだまだ発展途上ではありますが(ライター・アップは背後で動いているグーグル音声入力の認識精度に依存します)、全自動のテキスト起こしは実用レベルにまで近づいてきたといえるでしょう。
(1)音声ファイルを「Audacity」に読み込んでノイズを補正してみることにしました。音声全体の音量(ゲイン)を上げることもできますので、波形が小さいときは試してみましょう。