Mac業界の最新動向はもちろん、読者の皆様にいち早くお伝えしたい重要な情報、
日々の取材活動や編集作業を通して感じた雑感などを読みやすいスタイルで提供します。

Mac Fan メールマガジン

掲載日:

AIアバターでプロモ動画を自動生成! HeyGen「Video Agent」β版で動画生成を試してみた

著者: 大谷和利

AIアバターでプロモ動画を自動生成! HeyGen「Video Agent」β版で動画生成を試してみた

AIアバターなどの生成サービスを提供するHeyGenが、実用レベルの説明動画を対話的に作ることのできるVideo Agentを公開β版として公開した。月に3本までは無料で生成可能だ。β版ゆえに日本語の読み上げが完全ではないが、その回避方法も含めて、その使い方を紹介する。

最小限必要なのは動画のテーマとアバターだけ

これまで、AIによるプロモーション動画などの自動生成を謳うサービスでは、ストーリーに合うストックフォトやストックビデオなどを並べて、合成音声のナレーションが付くようなスタイルが普通だった。しかし、静止画&動画のスライドショーとナレーションだけでは、どうしても平板な印象になり、訴求力が弱まる。

これに対して、HeyGenは、アバターを使った企業のプロモーションビデオや教育・研修用の説明動画などの生成サービスを提供しているAI企業で、アバターのリアルさでは定評を得ていたものの、これまでは、アバターが話す内容はユーザがシナリオとして与える必要があった。また、Bロール(メイン映像を補完するために挿入されるサブ映像。Aロールにあたるメイン映像に対して、こう呼ばれる)は、必要に応じてユーザが後から編集して入れなければならなかった。

Video Agentは、これらの点を解消し、最小限、プロンプトでテーマを与えてアバターを選択するだけで、適宜、ナレーションが作られ、ストックメディアを利用したBロール付きの動画が生成される。加えて、ユーザが直接シナリオを指定することや、含めたい画像をアップロードして利用することも可能だ。

ユーザにとってうれしいのは、1本あたり3分以内で720pの解像度という制約があるものの、無料プランでも月に3本まで生成できるという点。さらに、自分のビデオや写真を元にしたAIアバターを生成することも無料で可能である。ただし、ビデオを元にすると声も再現されるが、写真を元にして声も再現する場合には、別に声のみの学習を行うことになり、それは有料プランへのアップグレードが必要だ。

HeyGenの料金プラン
HeyGenは、無料プランでも3分以内の動画を月に3本まで生成可能であるほか、自分のカスタムAIアバターも作成することができる。
Video Agent
ログイン後にホーム画面からVideo Agentを選択し、点線で囲ったところでアバターを選んで、+ボタンから動画内で使いたい画像を追加。さらに、作りたい動画を説明したプロンプトを入力することで、生成準備が整う。
Video Agentのアバター選択画面−1
利用できるアバターの数は、無料プランでも270ある。アジア系は少なめだが、適したものがなければ、自分のアバターを作ることも可能だ。
Video Agentのアバター選択画面−2
たとえば、このような1枚の写真からでもリアルなAIアバターを生成して利用することができる。
Video Agentのアバター選択画面−3
AIアバターは、元の写真にない表情もリアルに作り出して、感情豊かに発話することが可能である。現状では日本語の漢字の読み間違い(「桃太郎」を「とうたろう」と読むなど)が目立つが、後述する方法で、ある程度改善していける。




概要を確認・修正して意図に沿うものにする

プロンプトが入力されると、Video Agentは、その内容を分析して、動画生成のための概要を作成する。そこには、動画の長さやフォーマット、シナリオの確認(なければ生成)、言語、アバターと声の種類、B-ロールの内容、キャプションの有無が含まれる。それらを確認して問題なければ「Yes」と入力し、変更点があれば、改めてプロンプトで指示すればよい。

生成が始まると、シーンの設定や動画内のビジュアル要素のレイアウト、キャプションがあればその設定、ナレーションとBGMの追加など、一連のリストにチェックマークが付けられていく。

Video Agentのプロンプト入力
生成が始まると、まずVideo Agentから、プロンプトを解釈した概要が提示される。Yesと入力すればそのまま生成が続行され、変更点があれば指示を与えて、意図に沿った概要になるまで、このプロセスを繰り返す。
Video Agentのプロンプト入力-2
生成中は、このように、どのような処理が行われているが段階的に表示される。

日本語の読み上げ問題の対処法

完成した動画は、左端のコラムにAIとのやりとりをまとめたレイアウトで表示され、問題がなければ画面右上の「Download」ボタンから保存して利用できるようになる。無料プランでは右下にHeyGenのロゴが入るが、これは致し方ないところだ。

先に触れたように、現状では日本語の漢字の読み上げに不備があるが、この問題は、HeyGenの別の機能としてサービス内で提供される翻訳アプリを利用することで、かなり改善できる。これは推測だが、内部的に日本語のシナリオを作らせると、文字から音声に変換するので漢字の読み方の問題が発生するのに対し、翻訳の場合には、テキストの段階を経ずに音声から音声への変換となるため、直接的な「読み」の処理が発生しないということのようだ。同様の現象的な違いは、AIに日本語の文章を読み上げさせる場合と、日本語で会話する場合にも見られるので、そう考えてほぼ間違いないだろう。

そこで、まず英語で、Mac Fanのプロモーション動画を作ってみた。プロンプトは「A promotional video about “Mac Fan”, a magazine for Macintosh and Apple products enthusiasts, which provides the latest Apple news and in-depth analysis and usage tips.」(MacintoshとApple製品の愛好家のための雑誌で、最新のAppleニュースの詳細な分析や利用のヒントを提供する「Mac Fan」に関するプロモーションビデオ)としたが、日本語で書いて、AIによる概要を確認する段階で言語をEnglishにして生成させることもできるはずだ。

完成した動画を見てもらえるとわかるが、流暢な英語でまとまりのあるものになっている。Mac Fanの表紙画像は、アップロードしたものが使われているが、動きのある説明図などはAIが自動で挿入したストックメディアだ。

Video Agentの動画生成-1
動画の生成後も、それまでのAIとのやりとりのプロセスを確認することができる。
Video Agentの動画生成-2
使いたい画像を指定していなくても、赤い線で囲んだ部分が示すように、必要に応じてAIがストックメディアから適切と思われる画像を補ってくれる。
このようにして生成された、Mac Fan誌について説明する動画(英語版)

英語の動画ができたら、HeyGenのホーム画面に戻り、Appsの中のTranslate Videoを選ぶ。そして、先の動画をアップロードして翻訳後の言語(ここでは日本語)を指定し、Translateをクリックすれば翻訳処理が始まる。これは、単なるナレーションの翻訳ではなく、リップシンクまで翻訳後の言語に合わせた動画になり、これで漢字の読みの問題はほぼ解決できる。それでも、文の区切りのおかしな部分が出てくる場合があるものの、そこはβ版ゆえの要改善点と考えて、正式リリースに向けた改善に期待したいと思う。

HeyGenのホーム画面
HeyGenのホーム画面からAppsを選び、Translate Videoを選択し、動画の翻訳機能を起動する。
HeyGenの動画アップロード
翻訳したい動画をアップロードして、翻訳後の言語を指定すると処理が始まる。
英語で生成された動画を日本語に翻訳することで、最初から日本語で生成するよりも良い結果が得られる。それでも「デバイス」を「デ、バイス」のように区切って発音している部分があるが、今後の改善に期待したい。

著者プロフィール

大谷和利

大谷和利

1958年東京都生まれ。テクノロジーライター、私設アップル・エバンジェリスト、神保町AssistOn(www.assiston.co.jp)取締役。スティーブ・ジョブズ、ビル・ゲイツへのインタビューを含むコンピュータ専門誌への執筆をはじめ、企業のデザイン部門の取材、製品企画のコンサルティングを行っている。

この著者の記事一覧

×
×