テキストを自然な音声に変換できるAmazon Pollyを解説

テキストを自然な音声で読み上げる、そう聞くと、多くの方々は電話案内のような単語を繋ぎ合わせた片言のアナウンスなどを思い浮かべるのではないでしょうか。しかし、AWSが提供する「Amazon Polly」は、日本のラジオ報道番組にも採用されるほど、高品質な音声を提供しています。その品質はクラウド型コールセンターサービス「Amazon Connect」でも標準利用されているほどです。このコラムでは、テキストを高品質な音声へ変換する「Amazon Polly」について解説します。

Amazon Pollyはテキストの音声変換サービス

Amazon Pollyは、ディープラーニングで構築した学習モデルを活用して、テキストデータを音声に変換するAWSのサービスです。その機能を利用して、テキストを読み上げるアプリケーションやサービスを構築できます。

従来の音声変換サービスとは違って、何十種類もの人間の音声を合成して自然に聞こえるように変換でき、イタリア語、日本語、韓国語、フランス語などポピュラーな言語を中心に29の言語に対応しています(2020年11月15日現在)。特に英語に関しては、アメリカ英語、イギリス英語、オーストラリア英語、インド英語と細かく分類されているのが特徴です。

音声には標準音声とニューラル音声があり、ニューラル音声は標準音声の生成時に行う音声の合成をしないため、より高音質の音声を生成できます。その生成の仕組みは、まず音素を音声の3次元グラフ(スペクトログラム)に変換し、さらにボコーダーによって連続したオーディオ信号に変換。この2重の処理がニューラル音声のポイントになっています。

Amazon Pollyを利用すべき理由・メリット

Amazon Pollyには複数の利用メリットがあり、その高品質な音声は、日本国内のラジオやクラウド型コールセンターサービス「Amazon Connect」で利用されています。詳細は後ほど事例の項で記載いたします。ここでは、そのメリットを一つずつみていきましょう。

多言語、男女音声の対応

世界29の言語に対応しており、それぞれの言語で男女の音声が用意されている

多くのオーディオ形式への対応

「MP3」「Vorbis」「raw PCM」などの様々なオーディオ形式で音声を保存することが可能

追加料金なしで再利用可能

一度音声化してしまえば、料金を気にせずそれぞれの目的で再利用できる。例えば、定型文の音声データを使うようなサービスや、視覚障害者向けに書籍音声化など

メジャーな開発言語に対応

Java、PHP、Rubyなどメジャーな言語に対応している。API経由でテキストを送信すればストリーミング再生や音声ダウンロードなども可能

SSMLタグのサポート

SSML(Speech Synthesis Markup Language:音声合成マークアップ言語)タグをサポートしていて音声の「相」をコントロールできる。「相」とは発音、声量、声の高さ、速度などの要素からなり、SSMLでは特定単語の強調や呼吸音を含む、囁きなどの細かい設定を強調できる。これらのことから人間の発声に近い自然な音声にカスタマイズできる

Amazon Pollyで利用できるSSMLタグは、主に次のようなものです。

                       
動作 説明
Adding a Pause テキストに強度や時間を指定した一時停止を追加できる。
Emphasizing Words 単語を強調すると、話す速度と音量を変えて単語を強調できる。強調を大きくするほどテキストが大きくゆっくり発生される
Specifying Another Language for Specific Words 特定の単語、語句、または文に別の言語を指定する。言語を指定することで外国語の語句の発声が良くなる。
Placing a Custom Tag in Your Text SSMLメタデータ内でタグの位置を返すことにより、任意のカスタムタグのデータをテキスト内に配置できる。
Adding a Pause Between Paragraphs テキストの段落間に一時停止を追加する。通常ネイティブスピーカーがカンマや文章の終わりで一時停止するよりも長く一時停止できる。
Using Phonetic Pronunciation デフォルトで関連付けられた標準の発音ではなく、ph属性で指定された発音を使用する。
Controlling Volume, Speaking Rate, and Pitch 選択した音声の音量、速度、音程を制御できる。
Setting a Maximum Duration for Synthesized Speech 音声が合成されるときの時間を制御する。合成音声の発音タイミングを合わせられるようになる。
Adding a Pause Between Sentences テキストの行または文章間に一時停止を追加する
Controlling How Special Types of Words Are Spoken 特定の文字、単語、および数字を発声する方法を Amazon Polly に追加できる。
Identifying SSML-Enhanced Text すべてのAmazon Polly SSMLテキストの根本要素。SSML拡張テキストはすべて⟨speak⟩タグで囲まれている必要がある。
Pronouncing Acronyms and Abbreviations aliasタグを使用して、頭字語や略語など指定のテキストを別の単語(または発音)に置き換える。
Improving Pronunciation by Specifying Parts of Speech 単語の発音をカスタマイズできる。
Adding the Sound of Breathing 合成音声に呼吸音を追加することで、より自然な音に近づけられる。
Conversational speaking style 会話型の話し方を指定できる。ただし提供できる音声が限定されている。
Newscaster speaking style ニュースキャスターの読み上げのような話し方を指定できる。ただし提供できる音声が限定されている。
Adding Dynamic Range Compression オーディオファイルの特定の音量を上げることにより、音声を聞き取りやすくできる。
Speaking Softly 入力テキストを、通常の音声よりも柔らかく発声するように指定できる
Controlling Timbre 出力音声の声質を制御できる。話し手の声道の長さを変更して、話し手の声の大きさが変化したように聞こえる効果がある。
Whispering ささやき声でテキストを読み上げるように指定できる。

Amazon Pollyで利用可能なSSMLタグは、サポートページに詳しく掲載されていますので、ご参照ください。

Supported SSML Tags(AWS)別ウィンドウで開きます

Amazon Pollyのユースケース

ユースケースとしては、アプリケーションやカスタマーセンターなどへの音声応答機能追加が考えられていて、視覚障害者向けサポート機能などでも効果を発揮することが期待されています。その他、ビデオやプレゼンテーションなどの作成、IoTデバイス用音声インタフェース、言語学習用教材への活用も検討されています。

Amazon Pollyの使い方は簡単で、AWSにアクセスして無料アカウントを作成後、ページで音声化したいテキストを入力するだけで手軽に利用できるのが魅力です。

Amazon PollyはAmazon Connectでも標準利用

Amazon Connectは、AWSが提供するクラウド型コールセンターサービスです。一般的なコールセンターで必要な機能が利用でき、また、応答フローなども簡単に作成できます。Amazon Connectの自動音声案内の作成などでAmazon Pollyは効果を発揮します。

Amazon Pollyデフォルトの音声であればAmazon Connectでの使用は無料で、Amazonコンソールから簡単に音声を追加できます。課金対象は、Amazonアカウントに関連付けられたカスタムボイスの使用に対してのみのため安心です。

Amazon Connectの詳細については下記2つのリンクをご覧ください。
Amazon Connectで自動音声案内を作る

Amazon Connectを利用して、自動音声案内サービスを構築するまでの手順を紹介しています。
改装中店舗の代表電話への入電を他店舗へ転送

改装中店舗宛ての電話を転送する際、電話元の顧客には別店舗等へ転送されることを、転送先店舗での応答者にはどの店舗からの電話が転送されてきたのかを、Amazon Connectでそれぞれ知らせる仕組み含めて構築した事例を紹介しています。

Amazon Pollyは日本国内のラジオでも利用

Amazon Pollyでは、とあるFMラジオでニュース原稿などを読み上げる人工知能アナウンサーが代表的な導入事例に挙げられます。災害時などにアナウンサーの確保が困難でも、Amazon Pollyを使用して報道できたことにより、放送に耐えうるだけの品質であることも実証済みです。年間のコストが400円-800円程度であることも大きな魅力でしょう。

その他、世界各地の会社でAmazon Pollyは自動音声案内を中心に利用されています。

Amazon Pollyの料金

基本的には100万語あたり4ドルで、音声のクオリティが高いニューラルプランでも100万語あたり16ドルと、価格は非常にリーズナブルです。詳細な価格は、下記公式ページをご覧ください。

Amazon Polly 料金(AWS)別ウィンドウで開きます

Amazon Pollyを活用して音声サービスの革新を

Amazon Pollyは、29の言語に対応していて、特に英語に関しては、アメリカ英語、イギリス英語、オーストラリア英語、インド英語と細かく分類されています。SSMLを使い特定単語の強調や呼吸音、囁きなどの細かい設定も可能です。

日本のラジオをはじめとした複数の導入実績があり、品質は十分といえるでしょう。Amazon Pollyをうまく活用して、自社の音声サービス革新をしていきましょう。

Amazon Web Services(AWS)、Microsoft Azureの
導入支援サービスのご相談、お問い合わせをお待ちしております。

ページ上部へ戻る