COLUMN
AWSでリアルタイム音声認識・文字起こし!Amazon Transcribeの使い方や導入事例を紹介
AWSの文字起こしサービスAmazon Transcribeには多くの機能が付いており、音声データを扱う企業にたくさんのメリットがあります。今回は、Amazon Transcribeの使い方やメリット、導入事例を紹介します。
目次:
- 1.Amazon Transcribeとは?
- 2.Amazon Transcribeの使い方 ~準備~
- 2-1.AWSアカウントを作成
- 2-2.S3バケットの作成
- 2-3.S3バケットに音声ファイルをアップロード
- 3.Amazon Transcribeの使い方 ~文字起こしを実行・確認~
- 3-1.文字起こしジョブを作成
- 3-2.文字起こしの結果を確認
- 4.Amazon Transcribeの料金
- 5.Amazon Transcribeのさまざまな機能
- 5-1.タイムスタンプの生成
- 5-2.複数の話者を認識
- 5-3.音声のストリーミング
- 5-4.カスタム語彙
- 6.Amazon Transcribeのメリット
- 6-1.高精度の文字起こしができる
- 6-2.文字起こしのコストが大幅削減
- 6-3.特定の単語をフィルタリング可能
- 7.Amazon Transcribeの導入事例
- 7-1.Slack(Slack Huddles)
- 7-2.DeNA(Voice Pococha)
- 7-3.State Auto Insurance(State Auto)
- 8.Amazon Transcribeの導入ならぜひNTT東日本にご相談ください
- 9.Amazon Transcribeについてまとめ
1.Amazon Transcribeとは?
Amazon Transcribeとは、「AWS(Amazon Web Service)」が提供する、音声を自動で文字起こししてくれるサービスです。そもそもAWSとはネットショッピング大手で有名なAmazonが提供しているクラウドコンピューティングサービス(インターネットを経由してデータベースやアプリケーションなどの、さまざまなICTサービスをオンデマンドで利用できるサービス)の総称で、音声認識などのAI機能だけではなく、仮想サーバーの作成やWebサイトの運用など、200以上のサービスを提供しています。
AWSの提供するサービスの一つであるAmazon Transcribeでおこなえる具体的な内容の例は、以下の通りです。
- 文字起こし
- 字幕作成
- 議事録作成
今まで手動でおこなっていた、取材の際に録音した音声データの文字起こしや動画に字幕を付ける作業、会議の際の議事録作成をAmazon Transcribeが代わりにおこなってくれるため、大幅な作業時間の短縮が期待できます。またAWSが提供する他のサービスと組み合わせれば、更に便利に利用でき、自社にとって最大限の効果を実感できるツールとなるでしょう。
2.Amazon Transcribeの使い方 ~準備~
ここからは、Amazon Transcribeの使い方を見ていきましょう。文字起こしを実行する前の準備として、AWSアカウントの作成、S3バケットの作成、音声ファイルのアップロードをしなければなりません。3つの手順について順番に見ていきましょう。
2-1.AWSアカウントを作成
AWSのアカウント作成手順は、以下の通りです。
- AWSのサインアップ画面にアクセスする
- メールアドレスとパスワードを入力して認証コードを送信する
- 連絡先情報を入力する
- 請求情報を入力する
- SMSまたは音声認識により本人確認を行う
- AWSサポートプランを選択する
はじめに、AWSのサインアップ画面にアクセスし、メールアドレスとパスワードを入力して、認証コードを送信しましょう。メールアドレスとパスワードは後ほどサインインする際に必要になるため、メモを残しておいた方が安心です。
セキュリティチェックが表示される場合は文字列を入力し、続行をクリックします。ページが切り替わると名前や電話番号、住所などの連絡先情報の入力ページになるため、間違いのないように入力しましょう。
連絡先の情報が終われば、請求情報の入力です。請求情報の入力後、SMSまたは音声認識により本人確認がおこなわれます。検証コードを入力してサポートプランを選択すれば、AWSアカウントの作成完了です。
2-2.S3バケットの作成
AWSアカウントを作成した後は、S3バケットを作成します。Amazon Transcribeで使うデータは、事前にS3バケットという所に入れておく必要があるためです。S3バケットの作成手順は、以下の通りです。
- AWSマネジメントコンソールの検索窓に「S3」と打ち込む
- 「今すぐ始める」を選択する
- バケットの作成1から4を入力し、バケットを作成する
作成したAWSアカウントにサインインすると、AWSマネジメントコンソールの画面へと遷移します。AWSマネジメントコンソールは、AWSのサービスをウェブ画面から管理できるツールです。
AWSマネジメントコンソールではサービスの検索ができるため、検索窓に「S3」と打ち込み、フォームを表示させましょう。フォームには「バケットがありません」と表示されているため、下部の「今すぐ始める」を選択してバケットを作成します。
バケットの作成には1から4までの入力ページがあるため、1から順番に入力し、次へをクリックしていきましょう。1に入力するリージョン(地域)は、AWSアカウントを作成する際に入力した設定と同一でなければいけません。アカウントの作成時に、異なる地域の設定をしてしまった方は、地域を合わせなければS3バケットの作成ができないため、注意しましょう。
2のオプション確認、3のアクセス許可の設定をおこない、4の確認まで終えれば、S3バケットに作成したバケットが表示されます。
2-3.S3バケットに音声ファイルをアップロード
S3バケットを作成して音声ファイルをアップロードすれば、Amazon Transcribeの準備は完了です。音声ファイルは以下の手順でアップロードできます。
- 対象のバケットをクリックする
- アップロードを選択する
- 1から4の手順に従い、ファイルを読み込む
手順2で作成したバケット名をクリックし、アップロードを選択しましょう。ファイルはファイルの選択やアクセス許可の設定、プロパティの設定を行い、確認を終えればアップロードできます。
Amazon Transcribeは、FLAC、WAV、MP3、MP4をはじめ、AMR、Ogg形式などの音声ファイルフォーマットに対応しています。対応形式が少なかった頃は、スマートフォンで録音した音声ファイルなどは拡張子を変換する必要がありましたが、現在は多くのファイル形式に対応しています。取材の録音の際にボイスレコーダーではなくスマートフォンを使用する場合も増えてきていますので、Amazon Transcribeは今後、より便利で使いやすいサービスとなっていくでしょう。
3.Amazon Transcribeの使い方 ~文字起こしを実行・確認~
AWSアカウントの作成をはじめ、S3バケットの作成、音声ファイルのアップロードの準備を終えたら、実際にAmazon Transcribeを利用していきましょう。Amazon Transcribeの操作は難しくなく、文字起こしジョブの作成と、文字起こし結果の確認の2STEPでおこなえます。
3-1.文字起こしジョブを作成
Amazon Transcirbeを使う手順は、以下の通りです。
- AWSコンソールの検索窓で「AmazonTranscribe」を検索する
- Amason Transcribeを起動する
- 左メニューより「Transcription job」を選択する
- Create jobを選択する
- Job settingsでJOB名と言語を選択する
- データを取り込む
- Createを選択する
S3バケットを作成する際と同様に、AWSコンソールの検索窓に「Amazon Transcribe」と入力し、Amazon Transcribeを起動させましょう。起動したらまず表示される「Real-tibe transcription」は日本語非対応のため、左メニューより「Transcripition job」を選択してください。
Transcription jobsを起動した後は、右側にあるCreate jobをクリックし、Job settingsにてJOB名と言語の選択に入ります。JOB名を英数字にする点は、注意しましょう。
Input file location on S3にて作成したS3バケット名とファイルを記入し、Createをクリックすれば、文字起こしが開始されます。
3-2.文字起こしの結果を確認
文字起こしジョブを作成しCreateを押すと、文字起こしジョブの画面に切り替わり、ステータスが表示されます。ステータスは「Progress(進行中)」「Complete(完了)」「Failed(失敗)」のいずれかとなり、Completeが表示されれば結果の確認ができるため、Progressの最中は待機しましょう。
Amazon Transcribeでは語彙をカスタマイズし、独自の言語モデルをトレーニングする機能や、特別な単語、専門用語などの登録が可能です。ジャンルに沿った高精度の文字起こしもできるため、今まで手動で文字起こしをしていた方の強い味方となるでしょう。
4.Amazon Transcribeの料金
今まで手動で行っていた文字起こしや動画の字幕を付ける作業分野において活躍が期待できるAmazon Transcribeの料金は、月額制ではなく、1ヶ月に行った文字起こし音声データの秒数に基づく従量課金制です。音声データのボリュームもよりますが、スタンダードバッチ文字起こしの場合、ボリュームと料金に関しては、以下の通りです。
- T1:最初の25万分の音声データに対し、1分あたり0.02400USD
- T2:次の75万分の音声データに対しては、1分あたり0.01500USD
- T3:次の400万分の音声データに対しては、1分あたり0.01020USD
- T4:500万分以上の音声データに対しては、1分あたり0.00780USD
従量課金制のAmazon Transcribeの料金は階層別となっており、データの長さが大きければ大きいほど、1分あたりの料金が割り引かれます。
例えばT1で料金設定されている0.02400USDは2023年2月現在1USDあたり約134円であるため、日本円に直すと3.22円となります。会議などで録音した1時間の音声ファイルを文字起こしする場合、3.22円×60分の約193円で利用できるため、費用対効果は高いといえるでしょう。
さらにAWSには無料利用枠があり、毎月最大60分の文字起こしサービスが12ヶ月無料で利用できます。自社で扱う音声データの量によっては無料利用枠で足りる場合もあるため、ぜひ検討してみてはいかがでしょうか。
5.Amazon Transcribeのさまざまな機能
Amazon Transcribeには以下のようなさまざまな機能がついています。
- タイムスタンプを生成する機能
- 話者の認識機能
- 音声のストリーミング機能
- カスタム語彙の機能
順番に見ていきましょう。
5-1.タイムスタンプの生成
Amazon Transcribeの機能の一つとして、タイムスタンプの生成があります。タイムスタンプとは原稿に時間の経過を入れるための作業です。例えば文字起こしをする際、音声データに入っているすべての時間の中から、以下のデータを記録しなければいけないことがあります。
- Aの話者が話し始めた時間から話し終わった時間
- Aの話者が話し終えてからBの話者が話し始めるまでの時間
- Bの話者が話し始めてから話し終わった時間
タイムスタンプは話者の発言時間や長さを特定されるのに利用されるほか、原稿の頭出しが容易にできるメリットも持ち合わせています。Amazon Transcribeが活用できる例として動画の字幕作成を前述しましたが、字幕を作成する際にも便利な機能です。
5-2.複数の話者を認識
Amazon Transcribeはただ文字を起こすだけではなく、複数の話者を認識して、文字起こしテキストに適切な属性を設定できます。複数の話者を認識できるため、電話や会議、動画などの音声を文字起こしする際の強い味方となるでしょう。
今まで手動で文字起こしをおこなっていた企業であればわかるかと思いますが、話者が多くいる音声データの場合、一番苦労するのが声の聞き分けです。声が似ていたり、発言が他の人と被ってしまっていたりする音声データの場合、誰の発言かはっきりとわからない場合があります。
複数の話者を認識できるAmazon Transcribeの機能は、文字起こしをする際に強力な武器となるでしょう。
5-3.音声のストリーミング
Amazon Transcribeについている音声のストリーミング機能を利用すれば、リアルタイムの音声入力に対する文字起こしが可能です。ストリーミング機能がまだおこなえなかった頃は、上記で解説したS3ファイルに音声データをアップロードして読み込ませるバッチ方式でしか、文字起こしはおこなえませんでした。しかしストリーミング文字起こしができるようになったことで、以下の場面での活用が可能です。
- 問い合わせ窓口での通話記録の文字起こし
- メディアをライブ配信する際の自動字幕作成
- ミーティングの議事録の文字起こし
またAmazon TranscribeはAWSのサービスを組み合わせれば、さまざまな効果が期待できます。例えばテキスト内の心理や関係性を検出する自然言語処理サービスであるAmazon Comprehendと組み合わせれば、リアルタイムで会話しながら顧客の潜在ニーズや関係性を抽出することもできるでしょう。
5-4.カスタム語彙
Amazon Transcribeには、カスタム語彙の機能もついています。カスタム語彙とはAmazon Transcribeの文字起こし制度を高めるために利用できるオプションです。
カスタム語彙は辞書などに載っておらず、音声認識できなかった新しい言葉を基本語彙に加えられるほか、利用者の専門性により、製品名用語や個人名の登録もできます。カスタム語彙機能はバッチ文字起こしだけではなく、上記で挙げた音声ストリーミング機能にも対応も可能です。しかし音声ストリーミング機能では対応言語が限定されるなどの制限があるため、注意しなければなりません。カスタム語彙の機能を活用すればより精度が高く、専門性の高い文字起こしとなるでしょう。
6.Amazon Transcribeのメリット
さまざまな機能があるAmazon Transcribeを利用するメリットには、以下の3点があります。
- 高精度の文字起こしができる
- 文字起こしのコストが大幅削減できる
- 特定の単語をフィルタリングして文章を最適化できる
順番に見ていきましょう。
6-1.高精度の文字起こしができる
上記でAmazon Transcribeの持つ機能を述べた際にカスタム語彙について挙げましたが、カスタム語彙機能により、高精度の文字起こしができる点がAmazon Transcribeのメリットです。カスタム語彙機能は日本語をはじめ、英語や中国語、ドイツ語、フランス語などの31言語に対応しており、さまざまな場面で活用されています。
従来の手動で行う文字起こしであれば、文字起こしをする担当者によって専門用語の知識が乏しく、修正が必要になる場合があったでしょう。また担当者が替われば、うまく引き継がれないなどの問題もありました。
Amazon Transcribeのカスタム語彙機能に一度登録すれば、その後は音声データから登録語句を認識して文字起こしをしてくれます。継続して高精度の文字起こしができる点は、大きなメリットといえるでしょう。
6-2.文字起こしのコストが大幅削減
Amazon Transcribeを利用すれば、文字起こしのコストが大幅に削減できる点もメリットです。一般的に文字起こしは業者に依頼した場合、音声の内容にもよりますが、60分の音声データを手作業で文字起こしするために数時間程度かかります。
ところがAmazon Transcribeを利用すれば、60分の音声データを約20分で文字起こしすることが可能です。文字起こしの料金に関しても、業者に依頼すれば1〜2万円程度かかりますが、上記で見てきたとおり、Amazon Transcribeの料金は従量課金制となっており、安く済ませられる場合も多くあります。
自分で文字起こしをする場合はもちろん、業者への依頼ややり取りなどの手間や時間を省けるAmazon Transcribeは、業務で文字起こしを行う企業にぜひ試していただきたいサービスです。
6-3.特定の単語をフィルタリング可能
カスタム語彙のように登録したい単語やフレーズを記憶させるだけではなく、特定の単語や不要な単語をフィルタリングできる点も、Amazon Transcribeのメリットです。フィルタリングがないまたは弱い音声認識ツールの場合、特定の単語や不要な単語を削除する場合、文字起こしをした後にチェックする段階において、手動でおこなわなければいけません。
もちろんAmazon Transcribeでも確認作業は必要ですが、はじめからフィルタリングされている文字があるのとないのでは、確認の手間が変わるでしょう。またフィルタリング機能はバッチ文字起こしだけではなく、ストリーミング文字起こしにも対応しています。
大人のユーザーにはフィルタリングせずそのまま単語を表示させ、未成年のユーザーには3つのアスタリスク(*)などに置き換えるマスキングをして表示するなど、柔軟にカスタマイズできる点は、大きなメリットといえるでしょう。
7.Amazon Transcribeの導入事例
Amazon Transcribeの導入事例として、以下の3つを紹介します。
- Slack
- DeNA
- State Auto Insurance
冒頭から紹介したAmazon Transcribeがどのように導入され、どのように活用されているか見ていきましょう。
7-1.Slack(Slack Huddles)
Slackは、2013年にアメリカでリリースされたビジネスチャットツールです。日本でも多くの利用者がいるSlackは、インターネットに接続できる環境であれば場所を選ばず利用できるほか、Webブラウザやアプリなど、さまざまなデバイスで利用できます。Slackはチャットやファイル管理、検索など、さまざまな機能が利用できますが、Amazon Transcribeが導入されている機能は、Slack Huddles(Slackハドルミーティング)です。
Slack HuddlesはSlackのユーザー同士を相互に接続し、Amazon TranscribeとChime SDKを使用して、ライブ会議の字幕を提供しています。Slack Huddlesで会話した内容は自動で文字起こしされますが、現在は日本語に対応していないため注意しましょう。
Slack Huddlesを利用すれば、オフィスでの雑談で出たアイデアなども見逃すことはありません。さまざまな会話からビジネスチャンスが生まれ、多くの人の間で共有できるようになります。
7-2.DeNA(Voice Pococha)
DeNAはソーシャルゲームやライブストリーミング、スポーツなどのエンタメの事業を中心に、さまざまなサービスを行っている企業です。2022年1月配信された「Voice Pococha」というオーディオ配信アプリに、Amazon Transcribeが導入されています。
Voice Pocochaとは声でつながる、顔出しなしの音声ライブ配信アプリです。Voice Pocochaに導入する文字起こしツールを検討する際に特に重点をおかれたのが、禁止されている用語の識別と編集でした。Amazon Transcribeのカスタム語彙機能と、メリットでも述べたフィルタリング機能を利用すれば、禁止されている用語を識別した上での編集が可能です。今後Amazon Transcribeだけでなく、AWSのさまざまなサービスを利用して、Voice Pocochaコミュニティの成長が期待できるでしょう。
7-3.State Auto Insurance(State Auto)
保険会社のState Auto insuranceでも、Amazon Transcribeが活用されています。State Autoが導入したAmazon Transcribeの活用方法は、電話をかけてくるお客様のニーズの予測です。Amazon Transcribeは話者識別の機能により、対話していく中で速やかかつ正確に人物を区別した状態で音声を文字起こしできるため、電話を通して正確に消費者のニーズを予測できます。また音声のストリーミング機能の解説でも述べたとおり、自然言語処理サービスのAmazon Comprehendなど他のAWSサービスとの連携で、より深い潜在ニーズの把握が可能でしょう。
8.Amazon Transcribeの導入ならぜひNTT東日本にご相談ください
Amazon Transcribeの導入を検討されている場合は、NTT東日本にご相談ください。NTT東日本では、Amazon Transcribeを含んだクラウドサービスであるAWSの導入・運用サービスを提供しています。
本サービスは、「AWS」「Microsoft Azure」のクラウドサービスの設計構築・ネットワーク構築・監視保守・運用代行を行い、セキュアなクラウド環境構築やIT業務効率化を可能とするトータルサポートサービスです。
社内に専門部署がない場合、適切なサービスの設計方法に不安があったり、故障発生時の対応に困ったりする可能性があるでしょう。また、AWSを導入するにあたり、自社に合ったサービスの選定やトータルコストの算出にも知識が必要です。NTT東日本ではこれらのお悩みごとに対してしっかりとサポートいたします。
NTT東日本を選ぶメリットとしては以下の3つが挙げられます。
- 環境設計の準備から導入後までワンストップで支援可能
- 長期的な運用を見据えてお客さまに合ったサポート内容を提案
- 迅速かつ正確な環境構築が可能
当サービスをご利用いただくことで、Amazon Transcribeはもちろん、併用することで企業活動をより良くするAWSサービスのご提案もさせていただきます。興味のある方は、ぜひ以下よりお問合せください。
9.Amazon Transcribeについてまとめ
AWSサービスのひとつであるAmazon Transcribeは、ただ音声データから文字起こしをおこなうだけのサービスではありません。タイムスタンプや話者の認識機能、音声ストリーミングやカスタム語彙など多くの機能が付随しているため、高精度の文字起こしが可能です。
今まで文字起こしサービスを利用していた時間も、音声データの量によっては費用も、大幅に削減できるでしょう。利用もAWSアカウントの作成から文字起こしの実行・確認まで簡単にできるため、大きな手間は発生しません。
料金は従量課金制となっているものの、12ヶ月は毎月最大60分の文字起こしサービスが無料でできるため、一度試してみてはいかがでしょうか。またAWSのサービスの一つであるため、他のAWSサービスとも連携が可能です。
導入している企業も増加しているため、音声データの文字起こし作業を行っている企業は、Amazon Transcribeをぜひ検討してみましょう。
- 本記事に記載されている会社名、サービス名、商品名は、各社の商標または登録商標です。
無料ダウンロード
自社のクラウド導入に必要な知識、ポイントを
この1冊に総まとめ!
あなたはクラウド化の
何の情報を知りたいですか?
- そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
- 【AWS・Azure・Google Cloud】
どれが自社に最もマッチするの? - 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
- 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?
初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。
NTT東日本では
そんなあなたにクラウド導入に必要な情報を
1冊の冊子にまとめました!
クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・
- システムインフラの維持にかかるトータルコストがあまり変わらない。。
- 情シス担当者の負担が減らない。。
- セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
-
そもそも”クラウド化”とは?
その本質的なメリット・デメリット - 自社にとって
最適なクラウド環境構築のポイント - コストを抑えるための
具体的なコツ - 既存環境からスムーズにクラウド化を
実現するためのロードマップ
など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。
面倒でお困りのあなたへ
クラウドのご相談できます!
無料オンライン相談窓口
NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!
NTT東日本が選ばれる5つの理由
- クラウド導入を
0からワンストップでサポート可能! - 全体最適におけるコスト効率・業務効率の改善を
中立的にご提案 - クラウド環境に問題がないか、
第3者目線でチェック
してもらいたい - 安心の24時間・365日の対応・保守
- NTT東日本が保有する豊富なサービスの組み合わせで
”課題解決”と”コスト軽減”を両立
特に以下に当てはまる方はお気軽に
ご相談ください。
- さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
- オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
- オンプレミスとクラウド移行した際のコスト比較を行いたい
- AWSとAzure、どちらのクラウドが自社に適切かわからない
- クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
- クラウド利用中、ネットワークの速度が遅くて業務に支障がでている
クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。
相談無料!プロが中立的にアドバイスいたします
クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。