魔法のようなAI音声 -落とし穴にはご注意を-

AI音声は凄まじく便利です。テキストを音声化する技術・TTS（Text-to-Speech）は進歩し、音声の高さ・速さ・感情・アクセントの設定、音声クローン化、対話音声の生成もできるようになりました。AIのモデルは日々改良され、その魔法のような音声に息を飲むこともあります。

主なメリットは、コストの大幅削減と修正対応の容易さです。弊社が行うナレーション制作の場合、通常はスタジオのエンジニア、ナレーター、ディレクター等が関わり、準備、収録、整音作業が発生します。これをAI音声にすれば、音声制作者1名でも対応可能になり、修正もすぐにでき、大変便利です。一方、AI技術を巡る法整備や運用ルールが過渡期にある現在、制作ツールの使用にはまだまだ注意が必要です。

①　権利関係

②　種々の情報漏洩

まず、未公開・非公開情報をAIに送信すること自体に注意が必要です。そして、テキスト・音声の入出力をAIに学習・利用される可能性を鑑み、事前に利用規約・使用条件等を慎重に検討する必要があります。

③　音声制作者は（必ずしも）ナレーションのプロではない

発音の正誤判断を音声制作者に一任することになりますが、その発音が正しくない場合があります。また、以前ナレーターの方から「『正しい』とされる発音は変わる」「この言葉は現在こう発音するけど、以前はこうだった」「とある現場ではこの発音はNGだった」といった興味深い話を伺いました。また、「生成音声の間は短く、実際に読み上げると違和感があった」という方も。制作者が必ずしもナレーションのプロではないこと、ナレーターが現場で培ったノウハウを享受できないことは、踏まえておく必要があるでしょう。

つまり、手軽なAI音声ツールは数多あれど、それを正しく選び・使うリテラシーが必要なのです。弊社では、これらの「落とし穴」を埋める体制を以下のように整え、AIとナレーターの使い分けを含めてご提案します。

　〇データがAIに利用されない、セキュアな法人向け環境での制作
　〇ツールの仕様変更・最新規約等の継続的な情報アップデート
　〇権利保護・ビジネス利用において信頼性の高いツールの選定
　〇インストラクショナルデザインに基づく細やかな調整

個人的には、AI音声を含めてAIがeラーニングにおいて真価を発揮するのは、各ユーザーに対応するアダプティブラーニングだと考えています。弊社の理念「ナレッジ・スピア」の下、AIを活用したサービスの企画・開発を進めております。

Written by H.Owa

様々な品質の動画が氾濫している現在。
「教材」としての動画の重みを自覚し
質の担保に責任をもって制作に臨みます。