AIアバターなどの生成サービスを提供するHeyGenが、実用レベルの説明動画を対話的に作ることのできるVideo Agentを公開β版として公開した。月に3本までは無料で生成可能だ。β版ゆえに日本語の読み上げが完全ではないが、その回避方法も含めて、その使い方を紹介する。
最小限必要なのは動画のテーマとアバターだけ
これまで、AIによるプロモーション動画などの自動生成を謳うサービスでは、ストーリーに合うストックフォトやストックビデオなどを並べて、合成音声のナレーションが付くようなスタイルが普通だった。しかし、静止画&動画のスライドショーとナレーションだけでは、どうしても平板な印象になり、訴求力が弱まる。
これに対して、HeyGenは、アバターを使った企業のプロモーションビデオや教育・研修用の説明動画などの生成サービスを提供しているAI企業で、アバターのリアルさでは定評を得ていたものの、これまでは、アバターが話す内容はユーザがシナリオとして与える必要があった。また、Bロール(メイン映像を補完するために挿入されるサブ映像。Aロールにあたるメイン映像に対して、こう呼ばれる)は、必要に応じてユーザが後から編集して入れなければならなかった。
Video Agentは、これらの点を解消し、最小限、プロンプトでテーマを与えてアバターを選択するだけで、適宜、ナレーションが作られ、ストックメディアを利用したBロール付きの動画が生成される。加えて、ユーザが直接シナリオを指定することや、含めたい画像をアップロードして利用することも可能だ。
ユーザにとってうれしいのは、1本あたり3分以内で720pの解像度という制約があるものの、無料プランでも月に3本まで生成できるという点。さらに、自分のビデオや写真を元にしたAIアバターを生成することも無料で可能である。ただし、ビデオを元にすると声も再現されるが、写真を元にして声も再現する場合には、別に声のみの学習を行うことになり、それは有料プランへのアップグレードが必要だ。





概要を確認・修正して意図に沿うものにする
プロンプトが入力されると、Video Agentは、その内容を分析して、動画生成のための概要を作成する。そこには、動画の長さやフォーマット、シナリオの確認(なければ生成)、言語、アバターと声の種類、B-ロールの内容、キャプションの有無が含まれる。それらを確認して問題なければ「Yes」と入力し、変更点があれば、改めてプロンプトで指示すればよい。
生成が始まると、シーンの設定や動画内のビジュアル要素のレイアウト、キャプションがあればその設定、ナレーションとBGMの追加など、一連のリストにチェックマークが付けられていく。


日本語の読み上げ問題の対処法
完成した動画は、左端のコラムにAIとのやりとりをまとめたレイアウトで表示され、問題がなければ画面右上の「Download」ボタンから保存して利用できるようになる。無料プランでは右下にHeyGenのロゴが入るが、これは致し方ないところだ。
先に触れたように、現状では日本語の漢字の読み上げに不備があるが、この問題は、HeyGenの別の機能としてサービス内で提供される翻訳アプリを利用することで、かなり改善できる。これは推測だが、内部的に日本語のシナリオを作らせると、文字から音声に変換するので漢字の読み方の問題が発生するのに対し、翻訳の場合には、テキストの段階を経ずに音声から音声への変換となるため、直接的な「読み」の処理が発生しないということのようだ。同様の現象的な違いは、AIに日本語の文章を読み上げさせる場合と、日本語で会話する場合にも見られるので、そう考えてほぼ間違いないだろう。
そこで、まず英語で、Mac Fanのプロモーション動画を作ってみた。プロンプトは「A promotional video about “Mac Fan”, a magazine for Macintosh and Apple products enthusiasts, which provides the latest Apple news and in-depth analysis and usage tips.」(MacintoshとApple製品の愛好家のための雑誌で、最新のAppleニュースの詳細な分析や利用のヒントを提供する「Mac Fan」に関するプロモーションビデオ)としたが、日本語で書いて、AIによる概要を確認する段階で言語をEnglishにして生成させることもできるはずだ。
完成した動画を見てもらえるとわかるが、流暢な英語でまとまりのあるものになっている。Mac Fanの表紙画像は、アップロードしたものが使われているが、動きのある説明図などはAIが自動で挿入したストックメディアだ。


英語の動画ができたら、HeyGenのホーム画面に戻り、Appsの中のTranslate Videoを選ぶ。そして、先の動画をアップロードして翻訳後の言語(ここでは日本語)を指定し、Translateをクリックすれば翻訳処理が始まる。これは、単なるナレーションの翻訳ではなく、リップシンクまで翻訳後の言語に合わせた動画になり、これで漢字の読みの問題はほぼ解決できる。それでも、文の区切りのおかしな部分が出てくる場合があるものの、そこはβ版ゆえの要改善点と考えて、正式リリースに向けた改善に期待したいと思う。


著者プロフィール
大谷和利
1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、神保町AssistOn(www.assiston.co.jp)取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。



![アプリ完成間近! 歩数連動・誕生日メッセージ・タイマー機能など“こだわり”を凝縮/松澤ネキがアプリ開発に挑戦![仕上げ編]【Claris FileMaker 選手権 2025】](https://macfan.book.mynavi.jp/wp-content/uploads/2025/10/IMG_1097-256x192.jpg)
