COLUMN

2023.03.22 ｜ Writer：NTT東日本　アベ

AWSでリアルタイム音声認識・文字起こし！Amazon Transcribeの使い方や導入事例を紹介

AWSの文字起こしサービスAmazon Transcribeには多くの機能が付いており、音声データを扱う企業にたくさんのメリットがあります。今回は、Amazon Transcribeの使い方やメリット、導入事例を紹介します。

1.Amazon Transcribeとは？
2.Amazon Transcribeの使い方　～準備～: 2-1.AWSアカウントを作成; 2-2.S3バケットの作成; 2-3.S3バケットに音声ファイルをアップロード
3.Amazon Transcribeの使い方　～文字起こしを実行・確認～: 3-1.文字起こしジョブを作成; 3-2.文字起こしの結果を確認
4.Amazon Transcribeの料金
5.Amazon Transcribeのさまざまな機能: 5-1.タイムスタンプの生成; 5-2.複数の話者を認識; 5-3.音声のストリーミング; 5-4.カスタム語彙
6.Amazon Transcribeのメリット: 6-1.高精度の文字起こしができる; 6-2.文字起こしのコストが大幅削減; 6-3.特定の単語をフィルタリング可能
7.Amazon Transcribeの導入事例: 7-1.Slack（Slack Huddles）; 7-2.DeNA（Voice Pococha）; 7-3.State Auto Insurance（State Auto）
8.Amazon Transcribeの導入ならぜひNTT東日本にご相談ください
9.Amazon Transcribeについてまとめ

1.Amazon Transcribeとは？

Amazon Transcribeとは、「AWS（Amazon Web Service）」が提供する、音声を自動で文字起こししてくれるサービスです。そもそもAWSとはネットショッピング大手で有名なAmazonが提供しているクラウドコンピューティングサービス（インターネットを経由してデータベースやアプリケーションなどの、さまざまなICTサービスをオンデマンドで利用できるサービス）の総称で、音声認識などのAI機能だけではなく、仮想サーバーの作成やWebサイトの運用など、200以上のサービスを提供しています。

AWSの提供するサービスの一つであるAmazon Transcribeでおこなえる具体的な内容の例は、以下の通りです。

文字起こし
字幕作成
議事録作成

今まで手動でおこなっていた、取材の際に録音した音声データの文字起こしや動画に字幕を付ける作業、会議の際の議事録作成をAmazon Transcribeが代わりにおこなってくれるため、大幅な作業時間の短縮が期待できます。またAWSが提供する他のサービスと組み合わせれば、更に便利に利用でき、自社にとって最大限の効果を実感できるツールとなるでしょう。

2.Amazon Transcribeの使い方　～準備～

ここからは、Amazon Transcribeの使い方を見ていきましょう。文字起こしを実行する前の準備として、AWSアカウントの作成、S3バケットの作成、音声ファイルのアップロードをしなければなりません。3つの手順について順番に見ていきましょう。

2-1.AWSアカウントを作成

AWSのアカウント作成手順は、以下の通りです。

AWSのサインアップ画面にアクセスする
メールアドレスとパスワードを入力して認証コードを送信する
連絡先情報を入力する
請求情報を入力する
SMSまたは音声認識により本人確認を行う
AWSサポートプランを選択する

はじめに、AWSのサインアップ画面にアクセスし、メールアドレスとパスワードを入力して、認証コードを送信しましょう。メールアドレスとパスワードは後ほどサインインする際に必要になるため、メモを残しておいた方が安心です。

セキュリティチェックが表示される場合は文字列を入力し、続行をクリックします。ページが切り替わると名前や電話番号、住所などの連絡先情報の入力ページになるため、間違いのないように入力しましょう。

連絡先の情報が終われば、請求情報の入力です。請求情報の入力後、SMSまたは音声認識により本人確認がおこなわれます。検証コードを入力してサポートプランを選択すれば、AWSアカウントの作成完了です。

2-2.S3バケットの作成

AWSアカウントを作成した後は、S3バケットを作成します。Amazon Transcribeで使うデータは、事前にS3バケットという所に入れておく必要があるためです。S3バケットの作成手順は、以下の通りです。

AWSマネジメントコンソールの検索窓に「S3」と打ち込む
「今すぐ始める」を選択する
バケットの作成1から4を入力し、バケットを作成する

作成したAWSアカウントにサインインすると、AWSマネジメントコンソールの画面へと遷移します。AWSマネジメントコンソールは、AWSのサービスをウェブ画面から管理できるツールです。

AWSマネジメントコンソールではサービスの検索ができるため、検索窓に「S3」と打ち込み、フォームを表示させましょう。フォームには「バケットがありません」と表示されているため、下部の「今すぐ始める」を選択してバケットを作成します。

バケットの作成には1から4までの入力ページがあるため、1から順番に入力し、次へをクリックしていきましょう。1に入力するリージョン（地域）は、AWSアカウントを作成する際に入力した設定と同一でなければいけません。アカウントの作成時に、異なる地域の設定をしてしまった方は、地域を合わせなければS3バケットの作成ができないため、注意しましょう。

2のオプション確認、3のアクセス許可の設定をおこない、4の確認まで終えれば、S3バケットに作成したバケットが表示されます。

2-3.S3バケットに音声ファイルをアップロード

S3バケットを作成して音声ファイルをアップロードすれば、Amazon Transcribeの準備は完了です。音声ファイルは以下の手順でアップロードできます。

対象のバケットをクリックする
アップロードを選択する
1から4の手順に従い、ファイルを読み込む

手順2で作成したバケット名をクリックし、アップロードを選択しましょう。ファイルはファイルの選択やアクセス許可の設定、プロパティの設定を行い、確認を終えればアップロードできます。

Amazon Transcribeは、FLAC、WAV、MP3、MP4をはじめ、AMR、Ogg形式などの音声ファイルフォーマットに対応しています。対応形式が少なかった頃は、スマートフォンで録音した音声ファイルなどは拡張子を変換する必要がありましたが、現在は多くのファイル形式に対応しています。取材の録音の際にボイスレコーダーではなくスマートフォンを使用する場合も増えてきていますので、Amazon Transcribeは今後、より便利で使いやすいサービスとなっていくでしょう。

3.Amazon Transcribeの使い方　～文字起こしを実行・確認～

AWSアカウントの作成をはじめ、S3バケットの作成、音声ファイルのアップロードの準備を終えたら、実際にAmazon Transcribeを利用していきましょう。Amazon Transcribeの操作は難しくなく、文字起こしジョブの作成と、文字起こし結果の確認の2STEPでおこなえます。

3-1.文字起こしジョブを作成

Amazon Transcirbeを使う手順は、以下の通りです。

AWSコンソールの検索窓で「AmazonTranscribe」を検索する
Amason Transcribeを起動する
左メニューより「Transcription job」を選択する
Create jobを選択する
Job settingsでJOB名と言語を選択する
データを取り込む
Createを選択する

S3バケットを作成する際と同様に、AWSコンソールの検索窓に「Amazon Transcribe」と入力し、Amazon Transcribeを起動させましょう。起動したらまず表示される「Real-tibe transcription」は日本語非対応のため、左メニューより「Transcripition job」を選択してください。

Transcription jobsを起動した後は、右側にあるCreate jobをクリックし、Job settingsにてJOB名と言語の選択に入ります。JOB名を英数字にする点は、注意しましょう。

Input file location on S3にて作成したS3バケット名とファイルを記入し、Createをクリックすれば、文字起こしが開始されます。

3-2.文字起こしの結果を確認

文字起こしジョブを作成しCreateを押すと、文字起こしジョブの画面に切り替わり、ステータスが表示されます。ステータスは「Progress（進行中）」「Complete（完了）」「Failed（失敗）」のいずれかとなり、Completeが表示されれば結果の確認ができるため、Progressの最中は待機しましょう。

Amazon Transcribeでは語彙をカスタマイズし、独自の言語モデルをトレーニングする機能や、特別な単語、専門用語などの登録が可能です。ジャンルに沿った高精度の文字起こしもできるため、今まで手動で文字起こしをしていた方の強い味方となるでしょう。

4.Amazon Transcribeの料金

今まで手動で行っていた文字起こしや動画の字幕を付ける作業分野において活躍が期待できるAmazon Transcribeの料金は、月額制ではなく、1ヶ月に行った文字起こし音声データの秒数に基づく従量課金制です。音声データのボリュームもよりますが、スタンダードバッチ文字起こしの場合、ボリュームと料金に関しては、以下の通りです。

T1：最初の25万分の音声データに対し、1分あたり0.02400USD
T2：次の75万分の音声データに対しては、1分あたり0.01500USD
T3：次の400万分の音声データに対しては、1分あたり0.01020USD
T4：500万分以上の音声データに対しては、1分あたり0.00780USD

従量課金制のAmazon Transcribeの料金は階層別となっており、データの長さが大きければ大きいほど、1分あたりの料金が割り引かれます。

例えばT1で料金設定されている0.02400USDは2023年2月現在1USDあたり約134円であるため、日本円に直すと3.22円となります。会議などで録音した1時間の音声ファイルを文字起こしする場合、3.22円×60分の約193円で利用できるため、費用対効果は高いといえるでしょう。

さらにAWSには無料利用枠があり、毎月最大60分の文字起こしサービスが12ヶ月無料で利用できます。自社で扱う音声データの量によっては無料利用枠で足りる場合もあるため、ぜひ検討してみてはいかがでしょうか。

5.Amazon Transcribeのさまざまな機能

Amazon Transcribeには以下のようなさまざまな機能がついています。

タイムスタンプを生成する機能
話者の認識機能
音声のストリーミング機能
カスタム語彙の機能

順番に見ていきましょう。

5-1.タイムスタンプの生成

Amazon Transcribeの機能の一つとして、タイムスタンプの生成があります。タイムスタンプとは原稿に時間の経過を入れるための作業です。例えば文字起こしをする際、音声データに入っているすべての時間の中から、以下のデータを記録しなければいけないことがあります。

Aの話者が話し始めた時間から話し終わった時間
Aの話者が話し終えてからBの話者が話し始めるまでの時間
Bの話者が話し始めてから話し終わった時間

タイムスタンプは話者の発言時間や長さを特定されるのに利用されるほか、原稿の頭出しが容易にできるメリットも持ち合わせています。Amazon Transcribeが活用できる例として動画の字幕作成を前述しましたが、字幕を作成する際にも便利な機能です。

5-2.複数の話者を認識

Amazon Transcribeはただ文字を起こすだけではなく、複数の話者を認識して、文字起こしテキストに適切な属性を設定できます。複数の話者を認識できるため、電話や会議、動画などの音声を文字起こしする際の強い味方となるでしょう。

今まで手動で文字起こしをおこなっていた企業であればわかるかと思いますが、話者が多くいる音声データの場合、一番苦労するのが声の聞き分けです。声が似ていたり、発言が他の人と被ってしまっていたりする音声データの場合、誰の発言かはっきりとわからない場合があります。

複数の話者を認識できるAmazon Transcribeの機能は、文字起こしをする際に強力な武器となるでしょう。

5-3.音声のストリーミング

Amazon Transcribeについている音声のストリーミング機能を利用すれば、リアルタイムの音声入力に対する文字起こしが可能です。ストリーミング機能がまだおこなえなかった頃は、上記で解説したS3ファイルに音声データをアップロードして読み込ませるバッチ方式でしか、文字起こしはおこなえませんでした。しかしストリーミング文字起こしができるようになったことで、以下の場面での活用が可能です。

問い合わせ窓口での通話記録の文字起こし
メディアをライブ配信する際の自動字幕作成
ミーティングの議事録の文字起こし

またAmazon TranscribeはAWSのサービスを組み合わせれば、さまざまな効果が期待できます。例えばテキスト内の心理や関係性を検出する自然言語処理サービスであるAmazon Comprehendと組み合わせれば、リアルタイムで会話しながら顧客の潜在ニーズや関係性を抽出することもできるでしょう。

5-4.カスタム語彙

Amazon Transcribeには、カスタム語彙の機能もついています。カスタム語彙とはAmazon Transcribeの文字起こし制度を高めるために利用できるオプションです。

カスタム語彙は辞書などに載っておらず、音声認識できなかった新しい言葉を基本語彙に加えられるほか、利用者の専門性により、製品名用語や個人名の登録もできます。カスタム語彙機能はバッチ文字起こしだけではなく、上記で挙げた音声ストリーミング機能にも対応も可能です。しかし音声ストリーミング機能では対応言語が限定されるなどの制限があるため、注意しなければなりません。カスタム語彙の機能を活用すればより精度が高く、専門性の高い文字起こしとなるでしょう。

6.Amazon Transcribeのメリット

さまざまな機能があるAmazon Transcribeを利用するメリットには、以下の3点があります。

高精度の文字起こしができる
文字起こしのコストが大幅削減できる
特定の単語をフィルタリングして文章を最適化できる

順番に見ていきましょう。

6-1.高精度の文字起こしができる

上記でAmazon Transcribeの持つ機能を述べた際にカスタム語彙について挙げましたが、カスタム語彙機能により、高精度の文字起こしができる点がAmazon Transcribeのメリットです。カスタム語彙機能は日本語をはじめ、英語や中国語、ドイツ語、フランス語などの31言語に対応しており、さまざまな場面で活用されています。

従来の手動で行う文字起こしであれば、文字起こしをする担当者によって専門用語の知識が乏しく、修正が必要になる場合があったでしょう。また担当者が替われば、うまく引き継がれないなどの問題もありました。

Amazon Transcribeのカスタム語彙機能に一度登録すれば、その後は音声データから登録語句を認識して文字起こしをしてくれます。継続して高精度の文字起こしができる点は、大きなメリットといえるでしょう。

6-2.文字起こしのコストが大幅削減

Amazon Transcribeを利用すれば、文字起こしのコストが大幅に削減できる点もメリットです。一般的に文字起こしは業者に依頼した場合、音声の内容にもよりますが、60分の音声データを手作業で文字起こしするために数時間程度かかります。

ところがAmazon Transcribeを利用すれば、60分の音声データを約20分で文字起こしすることが可能です。文字起こしの料金に関しても、業者に依頼すれば1〜2万円程度かかりますが、上記で見てきたとおり、Amazon Transcribeの料金は従量課金制となっており、安く済ませられる場合も多くあります。

自分で文字起こしをする場合はもちろん、業者への依頼ややり取りなどの手間や時間を省けるAmazon Transcribeは、業務で文字起こしを行う企業にぜひ試していただきたいサービスです。

6-3.特定の単語をフィルタリング可能

カスタム語彙のように登録したい単語やフレーズを記憶させるだけではなく、特定の単語や不要な単語をフィルタリングできる点も、Amazon Transcribeのメリットです。フィルタリングがないまたは弱い音声認識ツールの場合、特定の単語や不要な単語を削除する場合、文字起こしをした後にチェックする段階において、手動でおこなわなければいけません。

もちろんAmazon Transcribeでも確認作業は必要ですが、はじめからフィルタリングされている文字があるのとないのでは、確認の手間が変わるでしょう。またフィルタリング機能はバッチ文字起こしだけではなく、ストリーミング文字起こしにも対応しています。

大人のユーザーにはフィルタリングせずそのまま単語を表示させ、未成年のユーザーには3つのアスタリスク（*）などに置き換えるマスキングをして表示するなど、柔軟にカスタマイズできる点は、大きなメリットといえるでしょう。

7.Amazon Transcribeの導入事例

Amazon Transcribeの導入事例として、以下の3つを紹介します。

Slack
DeNA
State Auto Insurance

冒頭から紹介したAmazon Transcribeがどのように導入され、どのように活用されているか見ていきましょう。

7-1.Slack（Slack Huddles）

Slackは、2013年にアメリカでリリースされたビジネスチャットツールです。日本でも多くの利用者がいるSlackは、インターネットに接続できる環境であれば場所を選ばず利用できるほか、Webブラウザやアプリなど、さまざまなデバイスで利用できます。Slackはチャットやファイル管理、検索など、さまざまな機能が利用できますが、Amazon Transcribeが導入されている機能は、Slack Huddles（Slackハドルミーティング）です。

Slack HuddlesはSlackのユーザー同士を相互に接続し、Amazon TranscribeとChime SDKを使用して、ライブ会議の字幕を提供しています。Slack Huddlesで会話した内容は自動で文字起こしされますが、現在は日本語に対応していないため注意しましょう。

Slack Huddlesを利用すれば、オフィスでの雑談で出たアイデアなども見逃すことはありません。さまざまな会話からビジネスチャンスが生まれ、多くの人の間で共有できるようになります。

7-2.DeNA（Voice Pococha）

DeNAはソーシャルゲームやライブストリーミング、スポーツなどのエンタメの事業を中心に、さまざまなサービスを行っている企業です。2022年1月配信された「Voice Pococha」というオーディオ配信アプリに、Amazon Transcribeが導入されています。

Voice Pocochaとは声でつながる、顔出しなしの音声ライブ配信アプリです。Voice Pocochaに導入する文字起こしツールを検討する際に特に重点をおかれたのが、禁止されている用語の識別と編集でした。Amazon Transcribeのカスタム語彙機能と、メリットでも述べたフィルタリング機能を利用すれば、禁止されている用語を識別した上での編集が可能です。今後Amazon Transcribeだけでなく、AWSのさまざまなサービスを利用して、Voice Pocochaコミュニティの成長が期待できるでしょう。

7-3.State Auto Insurance（State Auto）

保険会社のState Auto insuranceでも、Amazon Transcribeが活用されています。State Autoが導入したAmazon Transcribeの活用方法は、電話をかけてくるお客様のニーズの予測です。Amazon Transcribeは話者識別の機能により、対話していく中で速やかかつ正確に人物を区別した状態で音声を文字起こしできるため、電話を通して正確に消費者のニーズを予測できます。また音声のストリーミング機能の解説でも述べたとおり、自然言語処理サービスのAmazon Comprehendなど他のAWSサービスとの連携で、より深い潜在ニーズの把握が可能でしょう。