COLUMN
Amazon Q BusinessでPDFのインデックス化をやってみた
こんにちは、田口です。
Amazon Web Serviceでは生成AIを活用したサービスを提供しています。中でもAmazon Q Businessは生成AI対話アシスタントとして、企業のナレッジやデータに基づき、チャット形式でユーザーからの質問に回答、要約、またコンテンツ生成やタスク実行を行うことができる企業向けのサービスです。
本コラムではAmazon Q Businessを活用してPDFをインデックス化する方法を紹介します。
関連コラム
1. Amazon Q Businessとは
Amazon Qとは、昨年のAWS re:Invent 2023で発表されたAWSが提供する新しい生成AIサービスで、ChatGPTやCopilotといったサービスと同様の対話型生成AIアシスタントサービスです。
Amazon QはAmazon Bedrock上に構築されているため、Bedrockのさまざまな基盤モデルを使用しています。
またAmazon QはユースケースにあわせてAmazon Q BusinessとAmazon Q Developerに分かれています。
1-1. Amazon Q Business
Amazon Q Businessは企業システム内のデータや情報に基づき、チャット形式で質問に回答、要約、コンテンツを生成するといったRAGのアプリケーションを構築できます。
データソースコネクタは30種類以上あり、AWS以外のサービスとも連携ができます。ただしコネクタによって取得できる情報は異なっているため、気になる方は公式ドキュメントをご覧ください。
サポートされるファイルタイプは.csvや.xls,.xlsx,.docxなど一般的によく利用されるファイルタイプとなります。
1-2. Amazon Q Developer
開発者向けの生成AIサービスで、AWSサービスのベストプラクティスや開発のコーディングなど開発者の業務をサポートします。(ちなみにCodeWhisperer がリブランドされ Amazon Q Developerとなったようです)
また2024年8月19日にはGartner初のMagic Quadrant for AI Code Assistantsが公開され、その中でAmazon Q Developerがリーダーとして選出されました。
AWS が Gartner 初の Magic Quadrant for AI Code Assistants のリーダーとして選出されました
2. Amazon Q Businessで出来ること
Amazon Q Businessで主に出来ることは以下となります。
- RAGアプリケーションの構築
- アクセスコントロール(ACL)を利用したデータ活用の制御
- 組み込みプラグインやカスタムプラグイン利用したサードパーティアプリケーションとの連携
- ゲートウェイを利用したSlack、Microsoft Teamsの連携
またAmazon Q BusinessをベースとしたAmazon Q Appといったプロンプト指示によってノーコードでアプリケーションを作成することができるサービスも提供されています。
3. Amazon Q Businessの利用料金
Amazon Q Businessはインデックスと利用ユーザー数に基づいて料金が発生します。
インデックスとユーザーサブスクリプションはそれぞれ2種類提供されており、またユーザーサブスクリプションについてはプランによって利用できる機能が異なります。
- インデックス
Starter Index | Enterprise Index | |
---|---|---|
利用料金 | 0.140 USD / 時間 / 1ユニット | 0.264 USD / 時間 / 1ユニット |
- ユーザーサブスクリプション
Amazon Q Business Lite | Amazon Q Business Pro | |
---|---|---|
利用料金 | 3 USD / ユーザー / 月 | 20 USD / ユーザー / 月 |
IAM Identity Centerの利用 | 〇 | 〇 |
ナレッジベースでのQ&A | 〇 | 〇 |
権限設定 | 〇 | 〇 |
コンテンツ生成 | × | 〇 |
チャットへのファイルアップロード | × | 〇 |
カスタムプラグインの利用 | × | 〇 |
Amazon Q in QuickSightの利用 | × | 〇 |
Amazon Q Appsの利用 | × | 〇 |
料金は2024年9月時点のものです。
4. PDFのインデックス化を試してみる
Amazon Q Businessは2024年7月にスキャンされたPDFとPDFドキュメントに埋め込まれた画像のインデックス化の機能が発表されました。今回はこちらの機能を試してみます。
4-1. AWS IAM Identity Centerの有効化
まだIAM Identity Centerのインスタンスを作成していない人は作成しましょう。
Amazon Q Businessはまだ東京リージョンではサポートされておらず、現在はバージニア北部かオレゴンリージョンのみ提供されています。そのため、バージニア北部かオレゴンリージョンでIAM Identity Centerを有効化します。
なお、アップデートで別リージョンのIAM Identity Centerとも統合できるようになりましたが、こちらの設定を利用できるのはIAM Identity Centerが組織インスタンスの場合のみとなっています。
IAM Identity Centerがまだ有効化されていない場合はこんな画面になるので「有効にする」をクリックします。
「有効にする」をクリックするとインスタンスが作成され、このような画面になります。
後ほどAmazon Q Businessのアプリケーションを確認する際に利用するため、あらかじめテストユーザーを作成しておきます。
4-2. アプリケーションの作成
改めてサポートされているリージョンに変更し、アプリケーションを作っていきます。
「Create application」をクリックします。
任意のアプリケーション名を入力します。Service accessは「Create and use a new service-linked role(SLR)」を今回は選択します。
接続方法はIAM Identity CenterもしくはOktaなどのIdPを利用したSSOでの接続が選べます。IAM Identity Centerを使用して作成します。
しばらく待つとSTEP 2にページが移動します。
次にレトリーバーを作成します。Amazon Q Businessネイティブのレトリーバーのほかに、既にAmazon Kendraのレトリーバーがあるため、Kendraを既に利用している方はそちらのレトリーバーを選択することも可能です。
次にインデックスのプロビジョニングを選びます。今回は検証なので、「Starter」を選びました。
次にStep 3です。データソースを設定していきます。今回はS3を使用します。
任意のデータソース名を入力します。
データソースがVPC内に設置されている場合はオプションで設定できます。
IAM roleについて、今回は推奨設定の新規サービスロールを作成する設定にしましたが、IAM roleをカスタムで作成したい場合はS3だと以下ドキュメント内のポリシーが必要となります。
IAM role for Amazon S3 data sources
次に同期対象や同期のスケジュールを決めていきます。
スコープの部分は連携するデータソースによって設定項目が異なりますが、S3の場合対象バケットと最大のファイル容量、ACLの設定が可能です。
同期スケジュールはオンデマンド同期のほかに毎時、毎日、毎週、毎月といった内容を選ぶことができます。また「Custom」を選択すれば、cron式で詳細に設定することも可能です。
今回はオンデマンドを選択します。
作成したアプリケーションにアクセスできるユーザーを指定していきます。IAM Identity Centerで作成したユーザーを選択します。「Current subscription」からサブスクリプションタイプを選択できます。
ここで設定するロールはAmazon Q Businessを利用するユーザーが引き受けるサービスアクセスロールとなり、Amazon Q Businessでの会話を開始および管理する権限を付与します。
アプリケーションが作成されるとアプリケーションのURLが発行されていますのでアクセスしてみます。
アクセスするとアプリケーションのサインイン画面が出てくるため、IAM Identity Centerで作成したユーザーのアクセス情報でサインインします。
サインインするとAmazon Q Businessのチャット画面が出てきます。
Amazon Q Businessはまだ日本語に対応していないため(2024年9月24日 現在)、英語で質問していきます。試しに質問を投げかけてみましたが、ソースがないからわからないというような返答となりました。ではソースの同期を行っていきます。
4-3. データソースの同期
データソースから回答を貰えるようにデータソースと同期をしていきます。(今回はオンデマンドを選択したため、手動で実行します。)
作ったアプリケーションを押下し、「Data sources」にあるソース名を押下し、「Sync now」を押下します。完了するまでしばらく待ちます。
同期が完了するとSync historyにログが記載されます。「Completed」となっているので問題なく同期が完了したことがわかります。
なお、同期が完了しない場合、「DataSource」の「Sync history」でエラーになってしまった履歴のログを確認するとCloudwatchログでエラーメッセージを確認することが可能です。
4-4. アプリケーションから試してみる
では改めてS3内にあるPDFファイルのデータを元に返答されるか、試してみます。
S3にはAWSのホワイトペーパーを格納しています。
S3内のPDFファイルを元に回答が返ってきました。
Source部分を展開すると引用元のデータが表示され、ここからS3からデータを引用していることが分かります。
次に以下のような画像データのPDFをもとに返答されるか試してみます。
“太郎”に関する部署名が返答されました。また、人物に関する情報がそれ以外ないことも補足されています。
参考:Amazon Q introduces support for scanned PDFs and embedded images in PDF documents
5. まとめ
今回のコラムではAmazon Q BusinessのPDFのインデックス化についてご紹介させていただきました。
実際に設定をしてみると数か所項目を設定するだけで、RAGアプリケーションを簡単に作成することができました。
NTT東日本では、お客さまの電話業務の効率化に向け、Amazon Connect と生成AIを組み合わせた自動応答サービスも提供しています。
人手不足など電話業務での問題でお困りの方は是非一度ご相談ください。ご相談は無料で承ります。
RECOMMEND
その他のコラム
無料ダウンロード
自社のクラウド導入に必要な知識、ポイントを
この1冊に総まとめ!
あなたはクラウド化の
何の情報を知りたいですか?
- そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
- 【AWS・Azure・Google Cloud】
どれが自社に最もマッチするの? - 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
- 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?
初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。
NTT東日本では
そんなあなたにクラウド導入に必要な情報を
1冊の冊子にまとめました!
クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・
- システムインフラの維持にかかるトータルコストがあまり変わらない。。
- 情シス担当者の負担が減らない。。
- セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
-
そもそも”クラウド化”とは?
その本質的なメリット・デメリット - 自社にとって
最適なクラウド環境構築のポイント - コストを抑えるための
具体的なコツ - 既存環境からスムーズにクラウド化を
実現するためのロードマップ
など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。
面倒でお困りのあなたへ
クラウドのご相談できます!
無料オンライン相談窓口
NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!
NTT東日本が選ばれる5つの理由
- クラウド導入を
0からワンストップでサポート可能! - 全体最適におけるコスト効率・業務効率の改善を
中立的にご提案 - クラウド環境に問題がないか、
第3者目線でチェック
してもらいたい - 安心の24時間・365日の対応・保守
- NTT東日本が保有する豊富なサービスの組み合わせで
”課題解決”と”コスト軽減”を両立
特に以下に当てはまる方はお気軽に
ご相談ください。
- さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
- オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
- オンプレミスとクラウド移行した際のコスト比較を行いたい
- AWSとAzure、どちらのクラウドが自社に適切かわからない
- クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
- クラウド利用中、ネットワークの速度が遅くて業務に支障がでている
クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。
相談無料!プロが中立的にアドバイスいたします
クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。