COLUMN

Amazon Lexの新しい多言語ストリーミング音声認識モデル (ASR-2.0) について解説

こんにちは、田口です。

Amazon Lexとは、AIチャットボットや音声ボットを構築・運用できるフルマネージドAIサービスです。

Amazon Lexは、2024年12月に新しい多言語ストリーミング音声認識モデルASR-2.0へアップデートされました。

今回は新しいASR-2.0 モデルについて取り上げ、実際にどのようなものかを試してみようと思います。

1. Amazon Lexについて

1-1. Amazon Lexとは

Amazon Lexとは、AIチャットボットや音声ボットなどの会話型AIを提供するマネージドAIサービスで、Alexaと同じ会話エンジンを使用した会話インターフェースの構築が可能です。

音声をテキストに変換するためのディープラーニングを利用した自動音声認識(ASR)とテキストの意図を認識する自然言語理解(NLU)機能が提供されているため、文字チャットだけではなく、音声入力によりリアルな会話の相互作用を備えたアプリケーションを簡単に構築できます。

一般的なユースケースとしてコールセンターボットのようなセルフサービスの音声アシスタントやチャットボット、QA対応するカスタマーサポートボット、Facebook Messenger、Slackなどといったメッセージプラットフォームやモバイルアプリケーションへ簡単にデプロイすることができます。

またAmazon Lexは、Amazon Connectと連携することで電話対応を自動化できます。

以下コラムではAmazon LexとAmazon Connectを組み合わせて予約システムの自動応答を構築した例を取り上げています。気になる方はぜひご覧ください。

Amazon Connect×Amazon Lexで自動応答やってみた!

1-2. 利用料金

Amazon Lexは従量課金制となるため、初期費用や最低利用料金などは発生しません。

料金はテキストリクエストと音声リクエストで若干異なり、東京リージョンでは、テキストリクエストだと1リクエストあたり0.00075 USD、音声リクエストだと1リクエストあたり0.004 USDとなります。

また無料利用枠も用意されています。詳細は以下ページをご覧ください。

参照:Amazon Lex 料金

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

2. ASR-2.0モデルについて

Amazon Lexは2024年12月に新しい多言語ストリーミング音声認識モデル(ASR-2.0)の一般提供が開始されました。

参照:Amazon Lex が新しい多言語音声認識モデルを発表

これはポルトガル語、カタロニア語、フランス語、イタリア語、ドイツ語、スペイン語をサポートする欧州ベースのモデルと、中国語、韓国語、日本語をサポートするアジアパシフィックベースのモデルの2つのグループに分けられており、各グループで共有されている言語パターンを利用して認識精度を向上しました。また、これらのモデルは特に英数字の認識に優れています。

ASR-2.0はAmazon Lexでサポートされている言語の標準となっており、Amazon Lex V2をサポートするすべてのリージョンで利用できます。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

3. ASR-2.0モデルを試してみる

3-1. ボットを作成する

では、ASR-2.0の性能を確かめるため、まずはボットを作成します。ボットを作成する方法はコンソールで一から作成する方法、生成AI機能を利用した方法、テンプレートを使用する方法、Automated Chatbot Designerを利用する方法などがありますが、今回はテンプレートを使用します。

AWSコンソールからAmazon Lexを開き、「ボットを作成」をクリックします。

「Traditional」を選択し、「例から開始」をクリックします。

ちなみに、「Generative AI」を選択するとAmazon Bedrockの大規模言語モデルの機能を活用し、ユーザーの説明に基づいてボットに関連するインテントやスロットタイプを生成できます。

サンプルボットの「BookTrip」を選択します。

ちなみにサポート対象の言語がボット名の下部に記載されているため、他のテンプレートを使用する場合、こちらを参考に選ぶことができます。

ボットの名前には任意のものを入力し、IAMアクセス許可では、「基本的なAmazon Lex 権限を持つロールを作成します。」を選択します。

作成されたIAMロールには”AmazonLexV2BotPolicy”というマネージドポリシーがアタッチされています。

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "polly:SynthesizeSpeech"
            ],
            "Resource": [
                "*"
            ]
        }
    ]
}

児童オンラインプライバシー保護法(COPPA)の設定では、「いいえ」を選択します。

そのほかの設定はそのままの状態で「次へ」をクリックします。

次に言語として「Japanese(JP)」を追加し、「完了」をクリックします。

なおボットで使用する言語は後から追加することも可能です。

3-2. インテント

ボットを作成した時点で「Bookcar」と「BookHotel」と「FallbackIntent」インテントが自動で作成されます。

インテントとはユーザーが実行したいアクションをさします。今回のボットでいうと、「レンタカーを予約する」、「ホテルを予約する」になります。

「BookHotel」インテントの中身を確認してみます。

サンプル発話には以下のような内容が含まれています。サンプル発話とはインテントをトリガーするときに使用されるフレーズで、各インテントはサンプル発話のセットをあらかじめ登録しておくことによって、自然言語のユーザー入力に基づいてインテントを識別し、呼び出すことができます。

また、{Location}や{Nights}のようにスロット名を中括弧で囲むことで、サンプル発話でスロットを使用することも可能です。

初期応答とは、インテントが呼び出されたときに最初に返されるメッセージになります。

トグルを開くと応答するメッセージを入力することができます。

次にスロットを見ていきます。

スロットとは、インテントを実現するためにユーザーが提供する情報です。スロットは登録されている順にプロンプトが表示されます。

スロットには組み込みスロットタイプとカスタムスロットタイプの二種類のタイプがあります。

組み込みスロットタイプとは、AWSが用意しているスロットで、番号や都市名、時間など一般的な情報を取得できます。

このインテントに登録されている組み込みスロットタイプを見ていきます。

  • AMAZON.City
    都市を表す単語を認識します
  • AMAZON.Date
    日付を表す単語を認識し、標準形式に変更します
  • AMAZON.Number
    数語を認識し、数字に変換します。

その他の組み込みスロットタイプは以下のリンクをご覧ください。

参照:組み込みスロットタイプ

またカスタムスロットタイプとは、商品名などユーザーがあらかじめ定義しておくことで情報を取得できます。このインテントでは、「RoomTypeValues」がカスタムスロットタイプにあたります。

カスタムスロットタイプは「スロットタイプ」にて認識できる単語を設定できます。

カスタムスロットタイプについては以前のコラムで詳しく取り上げていますので、こちらも併せてご覧ください。

Amazon Lexでカスタムスロットタイプを活用し、Amazon Connectで自動IVR機能を実装する方法

また、今回は使用しませんが、「フルフィルメント」を設定することでLambda関数と連携することができ、予約を行ったり、注文状況を確認したりなど、よりボットの機能を拡張させられます。

参照:フルフィルメント

3-3. テスト

Amazon Lexではコンソール上でそのままボットのテストを行うことができます。

テストするためには「構築」をクリックして、「正常に構築されました」という状態にする必要があります。

「テスト」をクリックするとチャット画面が立ち上がり、テキスト/音声にてボットのテストができます。

マイク部分をクリックすることで音声入力が可能です。話し終えたらチェックマークをクリックすることで、送信できます。

それでは、ホテル予約を試してみます。サンプル発話と完全一致していなくても、ある程度定義された言葉が含まれていればインテントが実行されます。

「CheckInDate」のスロットから順にプロンプトが表示されていきます。日付けも問題なく認識されていますが、「Nights」スロットについては、スロットタイプが「AMAZON.Number」のため、「二泊」では認識されず、数字のみである必要がありました。

住所やメールアドレスの認識がどのようになるかもテストしたいため、「BookHotel」インテントのスロットに「AMAZON.FreeFormInput」と「AMAZON.EmailAddress」のスロットタイプを使用したスロットを追加しました。

日本の住所も問題なく認識しています。メールアドレスについては、言語としてJapaneseのためか、「test」をそのまま読むとカタカナとして認識されてしまうため、アルファベットで伝える必要がありました。

なお、スロットにどの値が格納されたかは、検査をクリックすることでサマリーとJSON構造を確認できます。

「要約」ではボットに返された情報をスロットごとに確認することができます。

「JSON入力と出力」ではリクエストとレスポンスの両方を確認することができます。

slotsのみ抜粋

   "slots": {
     "emailAddress": {
      "value": {
       "originalValue": "test0218@gmail.com",
       "interpretedValue": "test0218@gmail.com",
       "resolvedValues": [
        "test0218@gmail.com"
       ]
      }
     },
     "RoomType": {
      "value": {
       "originalValue": "クイーン",
       "interpretedValue": "クイーン",
       "resolvedValues": [
        "クイーン"
       ]
      }
     },
     "CheckInDate": {
      "value": {
       "originalValue": "2025年3月1日",
       "interpretedValue": "2025-03-01",
       "resolvedValues": [
        "2025-03-01"
       ]
      }
     },
     "UserAddress": {
      "value": {
       "originalValue": "東京都新宿区西新宿3-19-2",
       "interpretedValue": "東京都新宿区西新宿3-19-2",
       "resolvedValues": []
      }
     },
     "Nights": {
      "value": {
       "originalValue": "二",
       "interpretedValue": "2",
       "resolvedValues": [
        "2"
       ]
      }
     },
     "Location": {
      "value": {
       "originalValue": "東京",
       "interpretedValue": "東京",
       "resolvedValues": [
        "東京"
       ]
      }
     }

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

4. まとめ

今回はAmazon Lexを用いて、ASR-2.0の認識精度を確認してみました。

日本語の認識精度が高く、追加料金なしでボットを構築できるため、より正確に内容を把握できるボットを簡単に用意できます。

またNTT東日本では生成AIを活用したAI IVRソリューションを提供しております。

こちらのページで詳細をご紹介しておりますので気になる方は是非ご覧ください。

無料ダウンロード

自社のクラウド導入に必要な知識、ポイントを
このに総まとめ!

あなたはクラウド化の
何の情報を知りたいですか?

  • そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
  • 【AWS・Azure・Google Cloud】
    どれが自社に最もマッチするの?
  • 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
  • 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?

初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。

NTT東日本では
そんなあなたにクラウド導入に必要な情報を

1冊の冊子にまとめました!

クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・

  • システムインフラの維持にかかるトータルコストがあまり変わらない。。
  • 情シス担当者の負担が減らない。。
  • セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
  • そもそも”クラウド化”とは?
    その本質的なメリット・デメリット
  • 自社にとって
    最適なクラウド環境構築のポイント
  • コストを抑えるため
    具体的なコツ
  • 既存環境からスムーズにクラウド化
    実現するためのロードマップ

など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。

クラウドのわからない・
面倒でお困りのあなたへ

クラウドのご相談できます!
無料オンライン相談窓口

NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!

NTT東日本が選ばれる5つの理由

  • クラウド導入を
    0からワンストップでサポート可能!
  • 全体最適におけるコスト効率・業務効率の改善
    中立的にご提案
  • クラウド環境に問題がないか、
    第3者目線でチェック
    してもらいたい
  • 安心の24時間・365日の対応・保守
  • NTT東日本が保有する豊富なサービスの組み合わせで
    ”課題解決”と”コスト軽減”を両立

特に以下に当てはまる方はお気軽に
ご相談ください。

  • さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
  • オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
  • オンプレミスとクラウド移行した際のコスト比較を行いたい
  • AWSとAzure、どちらのクラウドが自社に適切かわからない
  • クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
  • クラウド利用中、ネットワークの速度が遅くて業務に支障がでている

クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。

ページ上部へ戻る

相談無料!プロが中立的にアドバイスいたします

クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。