COLUMN
テキストを自然な音声に変換できるAmazon Pollyを解説
テキストを自然な音声で読み上げる、そう聞くと、多くの方々は電話案内のような単語を繋ぎ合わせた片言のアナウンスなどを思い浮かべるのではないでしょうか。しかし、AWSが提供する「Amazon Polly」は、日本のラジオ報道番組にも採用されるほど、高品質な音声を提供しています。その品質はクラウド型コールセンターサービス「Amazon Connect」でも標準利用されているほどです。このコラムでは、テキストを高品質な音声へ変換する「Amazon Polly」について解説します。
Amazon Pollyはテキストの音声変換サービス
Amazon Pollyは、ディープラーニングで構築した学習モデルを活用して、テキストデータを音声に変換するAWSのサービスです。その機能を利用して、テキストを読み上げるアプリケーションやサービスを構築できます。
従来の音声変換サービスとは違って、何十種類もの人間の音声を合成して自然に聞こえるように変換でき、イタリア語、日本語、韓国語、フランス語などポピュラーな言語を中心に29の言語に対応しています(2020年11月15日現在)。特に英語に関しては、アメリカ英語、イギリス英語、オーストラリア英語、インド英語と細かく分類されているのが特徴です。
音声には標準音声とニューラル音声があり、ニューラル音声は標準音声の生成時に行う音声の合成をしないため、より高音質の音声を生成できます。その生成の仕組みは、まず音素を音声の3次元グラフ(スペクトログラム)に変換し、さらにボコーダーによって連続したオーディオ信号に変換。この2重の処理がニューラル音声のポイントになっています。
Amazon Pollyを利用すべき理由・メリット
Amazon Pollyには複数の利用メリットがあり、その高品質な音声は、日本国内のラジオやクラウド型コールセンターサービス「Amazon Connect」で利用されています。詳細は後ほど事例の項で記載いたします。ここでは、そのメリットを一つずつみていきましょう。
多言語、男女音声の対応
世界29の言語に対応しており、それぞれの言語で男女の音声が用意されている
多くのオーディオ形式への対応
「MP3」「Vorbis」「raw PCM」などの様々なオーディオ形式で音声を保存することが可能
追加料金なしで再利用可能
一度音声化してしまえば、料金を気にせずそれぞれの目的で再利用できる。例えば、定型文の音声データを使うようなサービスや、視覚障害者向けに書籍音声化など
メジャーな開発言語に対応
Java、PHP、Rubyなどメジャーな言語に対応している。API経由でテキストを送信すればストリーミング再生や音声ダウンロードなども可能
SSMLタグのサポート
SSML(Speech Synthesis Markup Language:音声合成マークアップ言語)タグをサポートしていて音声の「相」をコントロールできる。「相」とは発音、声量、声の高さ、速度などの要素からなり、SSMLでは特定単語の強調や呼吸音を含む、囁きなどの細かい設定を強調できる。これらのことから人間の発声に近い自然な音声にカスタマイズできる
Amazon Pollyで利用できるSSMLタグは、主に次のようなものです。
動作 | 説明 |
---|---|
Adding a Pause | テキストに強度や時間を指定した一時停止を追加できる。 |
Emphasizing Words | 単語を強調すると、話す速度と音量を変えて単語を強調できる。強調を大きくするほどテキストが大きくゆっくり発生される |
Specifying Another Language for Specific Words | 特定の単語、語句、または文に別の言語を指定する。言語を指定することで外国語の語句の発声が良くなる。 |
Placing a Custom Tag in Your Text | SSMLメタデータ内でタグの位置を返すことにより、任意のカスタムタグのデータをテキスト内に配置できる。 |
Adding a Pause Between Paragraphs | テキストの段落間に一時停止を追加する。通常ネイティブスピーカーがカンマや文章の終わりで一時停止するよりも長く一時停止できる。 |
Using Phonetic Pronunciation | デフォルトで関連付けられた標準の発音ではなく、ph属性で指定された発音を使用する。 |
Controlling Volume, Speaking Rate, and Pitch | 選択した音声の音量、速度、音程を制御できる。 |
Setting a Maximum Duration for Synthesized Speech | 音声が合成されるときの時間を制御する。合成音声の発音タイミングを合わせられるようになる。 |
Adding a Pause Between Sentences | テキストの行または文章間に一時停止を追加する |
Controlling How Special Types of Words Are Spoken | 特定の文字、単語、および数字を発声する方法を Amazon Polly に追加できる。 |
Identifying SSML-Enhanced Text | すべてのAmazon Polly SSMLテキストの根本要素。SSML拡張テキストはすべて〈speak〉タグで囲まれている必要がある。 |
Pronouncing Acronyms and Abbreviations | aliasタグを使用して、頭字語や略語など指定のテキストを別の単語(または発音)に置き換える。 |
Improving Pronunciation by Specifying Parts of Speech | 単語の発音をカスタマイズできる。 |
Adding the Sound of Breathing | 合成音声に呼吸音を追加することで、より自然な音に近づけられる。 |
Conversational speaking style | 会話型の話し方を指定できる。ただし提供できる音声が限定されている。 |
Newscaster speaking style | ニュースキャスターの読み上げのような話し方を指定できる。ただし提供できる音声が限定されている。 |
Adding Dynamic Range Compression | オーディオファイルの特定の音量を上げることにより、音声を聞き取りやすくできる。 |
Speaking Softly | 入力テキストを、通常の音声よりも柔らかく発声するように指定できる |
Controlling Timbre | 出力音声の声質を制御できる。話し手の声道の長さを変更して、話し手の声の大きさが変化したように聞こえる効果がある。 |
Whispering | ささやき声でテキストを読み上げるように指定できる。 |
Amazon Pollyで利用可能なSSMLタグは、サポートページに詳しく掲載されていますので、ご参照ください。
Amazon Pollyのユースケース
ユースケースとしては、アプリケーションやカスタマーセンターなどへの音声応答機能追加が考えられていて、視覚障害者向けサポート機能などでも効果を発揮することが期待されています。その他、ビデオやプレゼンテーションなどの作成、IoTデバイス用音声インタフェース、言語学習用教材への活用も検討されています。
Amazon Pollyの使い方は簡単で、AWSにアクセスして無料アカウントを作成後、ページで音声化したいテキストを入力するだけで手軽に利用できるのが魅力です。
Amazon PollyはAmazon Connectでも標準利用
Amazon Connectは、AWSが提供するクラウド型コールセンターサービスです。一般的なコールセンターで必要な機能が利用でき、また、応答フローなども簡単に作成できます。Amazon Connectの自動音声案内の作成などでAmazon Pollyは効果を発揮します。
Amazon Pollyデフォルトの音声であればAmazon Connectでの使用は無料で、Amazonコンソールから簡単に音声を追加できます。課金対象は、Amazonアカウントに関連付けられたカスタムボイスの使用に対してのみのため安心です。
Amazon Connectの詳細については下記2つのリンクをご覧ください。
Amazon ConnectのIVRで自動音声案内を作成する方法
Amazon Connectを利用して、自動音声案内サービスを構築するまでの手順を紹介しています。
改装中店舗の代表電話への入電を他店舗へ転送
改装中店舗宛ての電話を転送する際、電話元の顧客には別店舗等へ転送されることを、転送先店舗での応答者にはどの店舗からの電話が転送されてきたのかを、Amazon Connectでそれぞれ知らせる仕組み含めて構築した事例を紹介しています。
Amazon Pollyは日本国内のラジオでも利用
Amazon Pollyでは、とあるFMラジオでニュース原稿などを読み上げる人工知能アナウンサーが代表的な導入事例に挙げられます。災害時などにアナウンサーの確保が困難でも、Amazon Pollyを使用して報道できたことにより、放送に耐えうるだけの品質であることも実証済みです。年間のコストが400円-800円程度であることも大きな魅力でしょう。
その他、世界各地の会社でAmazon Pollyは自動音声案内を中心に利用されています。
Amazon Pollyの料金
基本的には100万語あたり4ドルで、音声のクオリティが高いニューラルプランでも100万語あたり16ドルと、価格は非常にリーズナブルです。詳細な価格は、下記公式ページをご覧ください。
Amazon Pollyを活用して音声サービスの革新を
Amazon Pollyは、29の言語に対応していて、特に英語に関しては、アメリカ英語、イギリス英語、オーストラリア英語、インド英語と細かく分類されています。SSMLを使い特定単語の強調や呼吸音、囁きなどの細かい設定も可能です。
日本のラジオをはじめとした複数の導入実績があり、品質は十分といえるでしょう。Amazon Pollyをうまく活用して、自社の音声サービス革新をしていきましょう。
NTT東日本のクラウドAI 活用ソリューションを知る!
無料ダウンロード
自社のクラウド導入に必要な知識、ポイントを
この1冊に総まとめ!
あなたはクラウド化の
何の情報を知りたいですか?
- そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
- 【AWS・Azure・Google Cloud】
どれが自社に最もマッチするの? - 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
- 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?
初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。
NTT東日本では
そんなあなたにクラウド導入に必要な情報を
1冊の冊子にまとめました!
クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・
- システムインフラの維持にかかるトータルコストがあまり変わらない。。
- 情シス担当者の負担が減らない。。
- セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
-
そもそも”クラウド化”とは?
その本質的なメリット・デメリット - 自社にとって
最適なクラウド環境構築のポイント - コストを抑えるための
具体的なコツ - 既存環境からスムーズにクラウド化を
実現するためのロードマップ
など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。
面倒でお困りのあなたへ
クラウドのご相談できます!
無料オンライン相談窓口
NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!
NTT東日本が選ばれる5つの理由
- クラウド導入を
0からワンストップでサポート可能! - 全体最適におけるコスト効率・業務効率の改善を
中立的にご提案 - クラウド環境に問題がないか、
第3者目線でチェック
してもらいたい - 安心の24時間・365日の対応・保守
- NTT東日本が保有する豊富なサービスの組み合わせで
”課題解決”と”コスト軽減”を両立
特に以下に当てはまる方はお気軽に
ご相談ください。
- さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
- オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
- オンプレミスとクラウド移行した際のコスト比較を行いたい
- AWSとAzure、どちらのクラウドが自社に適切かわからない
- クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
- クラウド利用中、ネットワークの速度が遅くて業務に支障がでている
クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。
相談無料!プロが中立的にアドバイスいたします
クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。