Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

“文字起こし”にAI革命⁉︎ ボイスレコーダVOITER「SR502J」「SR302Pro」を2台まとめてレビュー!

著者: 関口大起

“文字起こし”にAI革命⁉︎ ボイスレコーダVOITER「SR502J」「SR302Pro」を2台まとめてレビュー!

仕事柄、録音と文字起こしをする機会が非常に多いため、常により良いサービスを探している私。ソースネクストの「AutoMemo」や「Notta」といった文字起こしツールも使ってきましたが、未だ相棒と呼べるサービスには出会えていません。

そこで今回試したのが、iFLYTEK社が提供するボイスレコーダ「VOITER」シリーズの「SR502J」と「SR302Pro」です。いずれもユニークな特徴を持ったデバイスなので、それぞれの使い勝手をレビューしていきます。

「VOITER SR502J」の特徴は? インターネット接続によるリアルタイムAI文字起こしに対応!

大きなタッチディスプレイを搭載するVOITER SR502J。

まずは、大きなタッチディスプレイを備え、一見するとスマートフォンのようにも見える「VOITER SR502J」の特徴を整理していきます。

VOITER SR502J

【発売】
キヤノンマーケティングジャパン
【価格】
5万9900円

公式サイト

特徴①オンラインでのリアルタイム文字起こし

SR502Jは、Wi-FiあるいはSIMカードを本体に挿入することでインターネット接続が可能です。録音した音声はオンライン上でリアルタイムに文字起こしされ、本体ディスプレイにテキスト表示されます。録音後すぐに内容を振り返れるほか、録音がきちんとできているか、視覚でチェックできるのもいいところ(iPhoneの「ボイスメモ」で録音していると、録れてるかな?と不安になることもあるので)。

また一度文字起こしをしたあと、前後の文脈から誤りを認識するとAIが自動で修正してくれます。もちろん、オフライン環境で録音し、オンライン環境に移動してから文字起こしを実行することも可能です。

ディスプレイに表示されるリアルタイム文字起こし。写真●VOITER

特徴②:4つの録音モード

「会議」「講演」「取材」「標準」の4つの録音モードを備えています。シーンに応じて細かな設定を行う必要がないのはとてもスムースな体験になるでしょう。

ワンタップで、希望のモードで録音をスタートできます。6つのマイクを搭載し、最大距離10m、360度の収音が可能です。
左側面に搭載された赤いドットのボタンを2回押すと、録音をクイックスタートできます。

特徴③:動画撮影機能

本体背面にはカメラが搭載されており、動画の撮影が可能です。800万画素と、今時のスマートフォンと比べるときれいな映像とは言いがたいですが、記録用としては十分でしょう。動画撮影と同時に録音も行われ、リアルタイムに字幕を表示する機能も備えています。

本体に搭載されたカメラ。背面がガラス素材ということもあり、スタイリッシュなデザインです(個人的にはiPhone 4Sを想起させられました)。
SR502Jで撮影した動画のキャプチャ。やや荒さが目立ちます。

特徴④:専用Webアプリ「RECORDER STATION」

SR502J専用のWebアプリとして、「RECORDER STATION」が提供されています(利用にはメールアドレスの登録が必要)。簡単にいうと、SR502Jで録音し、クラウドにアップした音声およびテキストファイルを閲覧・ダウンロードできるアプリです。

RECORDER STATIONの画面。データのダウンロードや削除が可能です。文字起こしの内容を確認したい場合は、ファイル名などをクリックして「議事録データ化」を実行しましょう。
「議事録データ化」すると、ブラウザ上で音声再生や文字起こしの内容を閲覧できます。必要に応じて、上部[ダウンロード]からファイルを書き出しましょう。

「VOITER SR302Pro」の特徴は? オフラインでの自動文字起こしに対応するセキュアなレコーダ

オフライン環境で動作する、質実剛健なモデル。

一方のSR302Pro。iPodのようなビジュアルの、コンパクトなデザインを採用しています。ディスプレイはタッチ操作が可能です。

VOITER SR302 Pro

【発売】
キヤノンマーケティングジャパン
【価格】
3万9600円

公式サイト

特徴①:オフラインでの文字起こし

ネットワーク接続を前提とするSR502Jとは異なり、SR302Proは完全にオフラインで動作します。録音データをインターネット上にアップする必要がないので、情報漏洩のリスクが極めて低く、セキュアに運用できるのもポイントでしょう。

360°集音に対応した無指向性マイクを4つ、集音距離最大5mに対応した指向性マイクを2つ搭載しています。写真●VOITER

特徴②:ワンボタンで録音を開始

録音機材は取り回しの良さが使い勝手に直結しますが、その点、SR302Proは優秀です。本体表面の赤いドットが記されたボタンをワンプッシュすれば、すぐに録音がスタートします。

思い立ったときにすぐ録音をスタート!

特徴③:有線接続でパソコンなどにデータを共有

Windows PCのユーザであれば、SR302Proを有線(本体にUSB-Cポートを搭載)でPCに接続するだけで、簡単に音声および文字起こししたテキストファイルをダウンロードできます。

しかしMacユーザの場合、少々課題を感じました。というのも、SR302ProをMacに有線接続しても認識されないのです。公式は「Android File Transfer」アプリをMacにインストールし、アプリ経由でのファイルのダウンロードを推奨しています。

しかし「Android File Transfer」は、提供元であるGoogleが、すでにAndroid公式サイトでの配布を終了しているアプリです(厳密にいうと、ページは存在するもののAndroidの公式サイトからのリンクはなくなっている)。「Android File Transfer」は、SR302Pro本体のディスプレイに表示されるQRコードからダウンロードできるので使用できないわけではありませんが、継続的な運用を考えると不安が残ります。

「Android File Transfer」利用中の画面。2024年8月現在では、問題なく動作し、SR302Pro上のファイルをダウンロードすることができました。

「SR502J」と「SR302Pro」、文字起こしの精度が高いのはどっち?

ファイルの書き出しやすさなどを踏まえると、MacユーザであるならばSR302ProよりもSR502Jがおすすめです。しかし、使い勝手以上に重要なのは収音性能と文字起こしの精度でしょう。いくつかのシチュエーションで実験を行ったので、その結果をまとめていきます。

原稿を元に、3人で会話した際の文字起こし結果は…?

以下の原稿を用意し、SR502JとSR302Proとで同時に録音。文字起こしを行いました(原稿をベースにラフに会話しています)。

机を挟んで3人で会話。

【原稿】
A:Mac Fan Portalの調子はどうですか?
B:2024年5月29日のローンチ後、継続的に、しかもかなり良いペースでビューが伸びています。
C:特に、Macのメモリに関する記事の注目度が高いですね。
A:Apple Vision Proの記事も充実しています。
C:レビューはもちろん、エンジニアによるテクノロジー解説も魅力です。
B:虹彩認証システムであるアイサイトや、超高精細なディスプレイ、マイクロOLEDの解説記事はとてもおすすめです。

【SR502Jの文字起こし結果】

A:ワンポータルの調子はどうですか?
B:2024年の5月29日にろんされてから継続的で、しかもかなりいいペースでびが伸びてますね。
C:特にマックのメモリに関する記事の注目度がたかないですよね。
A:アップルビジョンプロの記事も充実しています。
C:デビューはもちろん、エンジニアによるテクノロジー解説も魅力です。
B:防災認証システムであるアイサイトや超高精細なディスプレイ、マイクロオーエルイーディーの解説記事はとてもおすすめです。

【SR302Proの文字起こし結果】
A:アクアンポータルの調子はどうですか?
B:2024年の5月29日にローンされてから継続的で、しかもかなりいいペースで冬場も見てますね。
C:特にマックのメモリに関する記事の注目度が高いですよね。
A:アップルビジョンプランの記事も充実しています。
C:レビューはもちろん、エンジニアによるテクノロジー解説も魅力です
B:交際認証システムである ISAイトや超高精細なディスプレイ、マイクロオー LEDの解説記事はとてもおすすめです。

固有名詞や専門用語を織り交ぜた会話ですが、あとから見返してある程度意味が理解できる内容にはなっている印象。精度では、SR502Jのほうが一歩リードというところでしょうか。いずれにしても、議事録やメモとしては十分です。

3人でフリートークした際の文字起こし結果は…?

今度は原稿を用意せず、フリーで会話をしてみました。

【SR502Jの文字起こし結果】

A:渡辺さんってクラシック音楽が好きですよね。
B:ですよね。はい。
A:作曲家で好きな人とかいますか?
B:ドビュッシーが好きです。
A:ドビし知ってますね。
C:ちょっと知らないです。
A:ドビし代表曲ってどんなやつですか?
B:月の光とか。
A:難しい1節行けます。今一つリズムだから難しいか。
B :ちゃん、ちゃん、ちゃん、ちゃんちゃんちゃん。
A :なんだろう、ちょっと分かんないですね。

【SR302Proの文字起こし結果】

A:中谷さんってクラシック音楽が好きですよね。
B:ですよね。はい。
A:作曲家で好きな人とかいますか?
B:いいえ、いいえ、ドビュッシーが好きです。
A:ドビュッシュ。知ってます
C:ちょっと知らないんだけど、ルーシー
A:ドーピーシー代表曲ってどんなやつですか?
B:月の光とか
A:しかしひと節いけません。今一筋水の中の難しいか、
B:ちゃんちゃんちゃんちゃん
A:見てないなんだろう?ちょっと分かんないですね。

なんとなく話の流れは理解できるものの、人物名や細かい言葉尻などがかなり崩れてしまいました。ただ原稿を用意したときと同じく、比較的SR502Jのほうが精度が高い印象です。かなり崩れてしまったとはいえ、この会話に参加していた人であれば振り返りには使えるレベルだとは思います。この辺りは、自動文字起こし機能に何を求めるかにもよるでしょう。

ちなみに、クラシック音楽が好きな編集部の中臺さんに、好きな作曲家とその楽曲について質問し、一節口ずさんでもらっています。「中臺さん」が「渡辺さん」「中谷さん」に。「ドビュッシー」が「ドビし」「ドビュッシュ」「ルーシー」「ドーピーシー」と文字起こしされてしまいました。

競合製品やサービスと同じく、“完璧な文字起こし”には届かないのは事実です。しかし、議事録やメモといった用途では、かなり使えるレベルまで精度が上がってきています。いずれのモデルもソフトウェアアップデートに対応しているので、今後の進化にも注目したいところ。

製品貸出●キヤノンマーケティングジャパン

おすすめの記事

著者プロフィール

関口大起

関口大起

『Mac Fan』副編集長。腕時計の卸売営業や電子コミック制作のお仕事を経て、雑誌編集の世界にやってきました。好きなApple Storeは丸の内。Xアカウント:@t_sekiguchi_

この著者の記事一覧