NTT東日本の自治体クラウドソリューション

Amazon Connectと統合されたサードパーティASR「Deepgram」を純正Lexと徹底比較!

こんにちは。エンジニアの森です。

AWSで簡単にコンタクトセンターを開設できるサービスであるAmazon Connectは、Amazon Lexと統合され、簡単に音声認識(通話内容の文字起こし)を行うことができ、後段の処理につなげることが可能です。

この音声認識エンジンはこれまでLex標準のもののみでしたが、2025年11月30日よりDeepgramというサードパーティのものがAmazon Connectで使用可能となりました。

Deepgram(ディープグラム):リアルタイムで高精度な音声認識(ASR)やText-to-Speect/Speect-to-Speechを提供するエンタープライズ向けのVoice AIプラットフォーム

音声認識エンジンにさまざまな選択肢があるというのはとても良いアップデートですが、気になるのはその精度であるため、今回検証を行いましたのでその結果をご紹介します。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

NTT東日本のクラウド事業をご紹介!登録不要・無料公開中、詳細はこちら

1. AWSアーキテクチャ図

上図は、Amazon ConnectでDeepgramを使用する場合のアーキテクチャ図です。(後述の比較時もこちらの構成を使用)

Deepgramは、LexからDeepgramのクラウド上にAPIで接続して実行されます。(公式ドキュメント上ではホスティング基盤の詳細は公開されていません)

また、Amazon Lexの開発者ガイドによると東京リージョンから使用する場合、Deepgramのグローバルエンドポイントと接続されるため、日本国内でデータを完結することはできないため、要件によっては注意が必要です。

※今回は使用していないため、詳細は割愛しますが、Premium契約がある場合はSelf-Hostedというデプロイオプションがあり、EKSにデプロイすることで国内のみで処理を完結することも可能なようです。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

2. 実装手順概要:Amazon ConnectとDeepgramの統合方法

ここでは、Amazon ConnectとDeepgramを統合する手順についての概要を解説します。

本コラムでは、検証環境の再現を目的としているため、最小構成での実装を前提としています。

2-1. Deepgramへの登録

はじめに、Deepgramを利用するためのアカウントを作成します。

Deepgramはサードパーティサービスのため、AWSアカウントとは別にDeepgram側での登録作業が必要です。

公式サイトからサインアップを行い、管理コンソールへログインします。

本検証では、Deepgramが提供するクラウド版APIを使用しています。

2-2. DeepgramでAPI Keyを作成

Amazon LexからDeepgramを呼び出すためのAPI Keyを作成します。

Deepgramの管理画面からAPI Keyを新規作成し、キーを控えておきます。

2-3. SecretManager、KMSへの登録

2-2で作成したAPI KeyをSecretManagerに登録し、KMSのキーで暗号化します。

2-4. 結果を格納するためのLambda、DynamoDBを作成

Lexから起動され、音声認識結果を保存するためのAWS Lambda、DynamoDBを作成しておきます。

2-5. Amazon ConnectでLex Bot作成、Deepgram設定

Amazon Connectのマネジメントコンソールから「無制限のAI料金設定」を有効にしておきます。

この設定しないとDeepgramによる文字起こしができないためですが、Amazon Connectの料金体系が変わるため、ご注意ください。

続いて、Amazon ConnectコンソールからAmazon Lex Botを作成します。

Lex Bot作成時、Speech modelの設定においてVoice providerをDeepgramに設定します。

設定項目としては主に以下です。

  • Model type:Speech-to-Text
  • Voice provider:Deepgram
  • Model ID:nova-3
  • Secrets Manager ARN:2-3で設定したARN

これにより、Amazon Connect経由で受信した音声は、Lexを通してDeepgramに送信され、文字起こしされる構成となります。

2-6. コンタクトフローへの組み込み

作成したLex BotをAmazon Connectのコンタクトフローに組み込みます。

コンタクトフロー内では、通常のLex呼び出しと同じようにLexの設定を2-5で設定したものを選択するのみです。

本検証では、Deepgramを利用したLex Botと標準Lex Botをコンタクトフローで切り替えながら実施しています。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

3. DeepgramとAmazon Lex(純正ASR)の精度比較

今回ご紹介したDeepgramを使用したLexと純正ASRを使用したLexでの文字起こし結果の精度比較を行いました。

3-1. 比較方法

比較方法は以下です。

①市役所への問い合わせを想定したテスト発話を23個(周囲が静かな場面20個/周囲にカフェの雑音が入った場面3個)をボイスレコーダーで収録。

No. テスト発話
1 住民票をコンビニで取りたいんですが、マイナンバー入りは出せますか
2 戸籍謄本を郵送で請求したいです。東京都新宿区に本籍があります
3 明日の午前10時ごろに市役所へ行けば住民票すぐ発行できますか
4 世帯全員の住民票を3通ほしいんですが手数料はいくらですか
5 先週大阪市から転入してきました。転入届はいつまでに出せばいいですか
6 市内で引っ越して中央区から北区へ住所変更しました
7 山田太郎ですが、代理人の妻でも転出届を出せますか
8 来週の3月3日にマイナンバーカードの住所変更も一緒にできますか
9 会社を2月末で退職したので国民健康保険に加入したいです
10 国保の保険料はいくらになりますか。年収は300万円くらいです
11 年金の免除申請を令和6年度分で出したいです
12 保険証は手続きしてから何日くらいで届きますか
13 住民税の納付書をなくしました。再発行してほしいです
14 固定資産税の第2期分の支払い期限はいつですか
15 軽自動車税をクレジットカードで払えますか
16 令和5年度の税額証明書を1通取りたいです
17 粗大ごみでソファを出したいんですが予約は必要ですか
18 港区芝公園4の2の8に住んでいますが回収日はいつですか
19 テレビを捨てたいんですがリサイクル券はどこで買えますか
20 私の電話番号は090-3412-7856です。収集の連絡確認をもらえますか
21
(雑音あり)
住民票をコンビニで取りたいんですが、マイナンバー入りは出せますか
22
(雑音あり)
戸籍謄本を郵送で請求したいです。東京都新宿区に本籍があります
23
(雑音あり)
明日の午前10時ごろに市役所へ行けば住民票すぐ発行できますか

②上記1章で掲載したアーキテクチャのAmazon Connectに電話をかけ、ボイスレコーダー音声を流す。

③Deepgram版Lexと純正ASR版Lexを切り替え、もう一度同じように電話をかけ、ボイスレコーダーの音声を流す。

④DynamoDBに登録された文字起こし結果を比較する。

【前処理】

比較処理前に、文字起こしに対し以下を適用した。

  • Unicode正規化(NFKC)による全半角統一
  • フィラー除去:えー/えっと/あのー/うん/はい など
  • 句読点・記号・空白・長音(ー)除去
  • 以上により、意味に影響しない表記揺れを排除し、純粋な音声認識の差異を比較可能とした。

【比較項目】

比較項目としてCER/Accuracyを計算して比較した。

  • CER(Character Error Rate:文字誤り率)

  • Accuracy(精度)
    Accuracy = 1 - CER

3-2. 比較結果

3-1.①で記載したテスト発話に対して出力された文字起こし結果の生データとCER/Accuracyの一覧は以下となりました。

  • 横にスクロールします
No. 標準Lex CER Accuracy Deepgram CER Accuracy
1 住民票をコンビニで取りたいんですけどマイナンバーエディを出せますか 0.200 0.800 住民票をコンビニに取りたいんですけど、マイナンバー営業を出せますか 0.200 0.800
2 を郵送で請求したいです東京都新宿区に本籍があります 0.138 0.862 戸籍謄本を郵送で請求したいです。東京都新宿区に本籍があります。 0.000 1.000
3 時ごろに市役所へ行けば住民票をすぐ発行できますか 0.267 0.733 明日の午前十時頃に市役所へけば住民票すぐ発行できますか 0.167 0.833
4 住民票を3つ欲しいんですが手数料はいくらですか 0.269 0.731 世帯全員の住民法を三通欲しいんですが手数料はいくらですか 0.115 0.885
5 先週大阪市から転入してきました転入届けはいつまでに出せばいいですか 0.033 0.967 先週大阪市から転入してきました。転入届はいつまで出せばいいですか 0.033 0.967
6 通して中央区から北区へ住所変更しました 0.250 0.750 市内で引越して中央区から企画や住所変更しました。 0.167 0.833
7 代理人の妻でも転出届けを出しますか 0.391 0.609 山田太郎ですが、代理人の妻でも選出届きを出せますか 0.087 0.913
8 来月の3月3日にマイナンバーカードの住所変更も一緒にできますか 0.034 0.966 来月の三月三日にマイナンバーカードの住所変更も一緒にできますか 0.103 0.897
9 会社を2月末で退職したので国民健康保険に加入したいです 0.000 1.000 会社を二月末で退職したので国民変更保険に加入したいです。 0.111 0.889
10 候保の保険料はいくらになりますか年収は300万円くらいです 0.037 0.963 ゴッホの保険料はいくらになりますか年収は三百万円くらいです。 0.222 0.778
11 年金の免除申請を令和6年分で出したいです 0.048 0.952 年金の免除申請を令和六年分で出したいです。 0.095 0.905
12 は手続きしてから何日くらいで届きますか 0.136 0.864 減少は手続きしてから何日くらい届きますか 0.182 0.818
13 住民税の納付をなくしてしまいましたら再発行してほしいです 0.250 0.750 住民税の納付をなくしてしいましたが再発行してほしいです。 0.208 0.792
14 固定資産税の第2期分の支払い期限はいつですか 0.000 1.000 固定資産税の第二期分の支払い権はいつですか 0.150 0.850
15 軽自動車税をクレジットカードで払いますか 0.053 0.947 件自動車税をクレジットカードで払いますか 0.105 0.895
16 分の税額証明書を1通取りたいです 0.250 0.750 令和五年度分の税額証明書が一点と問解です。 0.450 0.550
17 込みでソファーを出したいんですが予約は必須ですか 0.160 0.840 お在庫に入れソファーを出したいんですが、予約は必須ですか 0.280 0.720
18 港区芝公園4-2-8に住んでいますが最終日はいつですか 0.160 0.840 港区平公園四五二の八に住んでいますが開始日はいつですか 0.280 0.720
19 テレビを知りたいんですがリサイクル券はどこで買えますか 0.074 0.926 テレビを知りたいんですが、リサイクル券はどこで買えますか 0.074 0.926
20 私の電話番号は09034127856です先週の連絡確認をもらえますか 0.059 0.941 私の電話番号は零九零三四一二七八五六です。収集の連絡確認をもらえますか 0.324 0.676
21
(雑音あり)
住民票をコンビニに取りたいんですけどマイナンバーを出せますか 0.200 0.800 住民のお金取りたいんですけど、何倍以出せますか 0.533 0.467
22
(雑音あり)
東京都新宿区の宝石があります 0.621 0.379 新東本を郵送で提供したいです。東京都新聞紙本部であります。 0.345 0.655
23
(雑音あり)
午前10時頃に市役所へ行けばをすぐ発行できますか 0.267 0.733 あ、午前十時頃に主役者の一番営業員総数発表いますか 0.700 0.300
雑音なし平均 0.140 0.860 雑音なし平均 0.168 0.832
雑音あり平均 0.362 0.638 雑音あり平均 0.526 0.474
全体平均 0.169 0.831 全体平均 0.214 0.786

このように周囲の雑音の有無に関わらず、標準Lexのほうが精度としては高いという結果となりました。

特に周囲の雑音がある場面だとDeepgramは16%程度精度が低下していることが分かります。

これは、No.2、3、4、7など標準Lexはしゃべりだしの語句が切れてしまうことがあるのに対し、Deepgramは最初から文字起こしできているというように文字起こしする場面の閾値の差があるように見て取れました。

また、数値としては現れていないものの、以下の傾向も得られました。

  • 標準Lexは、数字で出力されるのに対しDeepgramは漢数字で出力される
  • 標準Lexは、句読点なし、Deepgramは句読点が入る時もある。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

4. 実際に使ってみて感じたDeepgramのメリット・デメリット

ここでは、実際にDeepgramと標準Lexを使用し、比較してみて感じたDeepgramのメリット・デメリットをご紹介します。

4-1. Deepgramのメリット

Deepgramの大きなメリットは、しゃべりだしの最初からちゃんと文字起こしできるという点です。

私は、電話と生成AIを組み合わせたシステム開発に従事していますが、開発中に最初に重要な言葉をお客さまが発言しているのにそれが認識(文字起こし)できないため、エラーになってしまうという課題がありました。

その点、Deepgramでは精度は標準Lexに及ばないものの、最初から音声認識されることで生成AIを用いることでニュアンスを捉えて正常に後段の処理が実行できる可能性が高いというのがとても大きいです。

4-2. Deepgramのデメリット

一方でデメリットはいくつかあります。

  • Deepgramのサイトから登録・APIキーの取得が必要
  • 支払いがAWS内で完結しない(別途コストがかかる)
  • APIでDeepgramを使用する場合、日本国内のみでデータが完結しない
  • 標準Lexに比べて精度の低下が激しい(特に周囲に騒音が入る場合)

コストはこれまで触れてきませんでしたが、$0.0077〜$0.0065/分がLex利用料とは別にかかり、純粋に増大してしまい、支払いもAWS利用料と別というのは大きなデメリットかもしれません。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

5. どんなケースでDeepgramを使うべきか?

これまでの結果からDeepgramは完璧とは言えませんが、ユースケースによってはとても重宝するような場面があると考えます。

① 短い単語のみで処理しなければいけないケース

音声でIVR機能を構築している場合など文章ではなく、単語レベルの短い文言を認識して処理しなければいけない場面があります。

例えば、「お問い合わせは住民票に関してですか?それとも税金に関してですか?」という問いに対して「税金」と答えが返ってきた場合、標準Lexでは認識できない可能性がありますが、Deepgramであれば認識できる可能性が高いです。

② しゃべりだしをうまく捉えなければいけないケース

業務ややり取りの都合上、どうしてもしゃべりだしの最初で重要な語句が発せられるようなケースでは同様に標準Lexでは認識できない場合が多いため、このようにしゃべりだしをうまく捉えることができずに困っている方はDeepgramを使用するとうまく処理できることがあるでしょう。

生成AIを活用したIVRソリューションに関するお問い合わせはこちら!

6. まとめ

今回は、サードパーティの音声認識エンジンであるDeepgramについてご紹介しました。

上記では、Deepgramを使用すると良いケースをまとめましたが、Deepgramには、デメリットも存在します。

Amazon Connectのコンタクトフロー内には複数のLexを配置できるため、必要な場面では標準Lexを配置し、場面に応じてDeepgramのLexを配置するといった使い方をするとどちらの良さも引き出せる良い構成になると感じました。

このコラムがあなたのシステム構築の参考になれば幸いです。

NTT東日本では、今回ご紹介したDeepgramをはじめ、Amazon Connectや生成AIを使用したプロダクト開発に力を入れています。

コンタクトセンターでお困りのことがある方はぜひお問い合わせください

コンタクトセンターではないが、クラウド導入でお困りという方ももちろん大歓迎です!

  • Amazon Web Services(AWS)は、米国その他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
  • Deepgramおよびdeepgram.comは、米国およびその他の国におけるDeepgram, Inc.の商標または登録商標です。

ページ上部へ戻る

相談無料!プロが中立的にアドバイスいたします

クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。