COLUMN

RAGの評価方法について

現代のシステム開発において、人工知能(AI)を活用した自然言語処理技術は急速に普及しており、その中でもRAG(Retrieval-Augmented Generation:検索拡張生成)という手法が注目を集めています。

RAGは、大規模言語モデル(LLM)に対して、外部のデータベースや社内情報を組み合わせて回答を生成する方法です。RAGを導入する際には、その性能を要素ごとに正しく評価し、課題を整理することが重要です。

このコラムでは、RAGを評価する方法について、わかりやすく解説していきます。

1. RAGとは何か?

RAG(Retrieval-Augmented Generation)とは、大規模言語モデル(LLM)に情報検索の仕組みを組み合わせた技術です。従来のLLMは、学習データに基づいて回答を生成するため、新しい情報を学習していないと正しい答えを回答することができません。RAGは、まず外部のデータベースやドキュメントから関連情報を検索し、それを元に回答を生成することで、より正確で信頼性の高い情報提供を可能にします。例えば、企業内のナレッジベースを活用したチャットボットや、FAQの自動応答システムなどの用途で導入が進んでいます。

1-1. RAGのメリット

RAGは情報の正確さを高める大きなメリットがあります。これは外部のデータベースやドキュメントから最新情報や関連情報を取り込むことで、より信頼性の高い回答ができるためです。外部の情報源を変更することで、特定の専門分野に特化した情報も提供可能です。そのため、RAGは情報提供をより高度にする手法としても役立ちます。

1-2. LLM単体とRAGの違い

整理すると、LLMは質問をすれば回答を出力するモデルを指し、RAGは、LLMと参照用データや検索機能などをひとまとめにして、回答の正確さ・品質を高めるシステムを指します。そのためLLMの性能はRAGの性能に寄与するものの、LLMの性能のみがRAGの性能を決めるというわけではありません。RAGはさまざまな要素で構成されているため、要素ごとに性能を評価することが求められます。

NTT東日本初の生成AIサービスのご紹介資料です。ぜひダウンロードして生成AI導入にご活用ください!

2. RAGの評価手法について

2-1. なぜRAGの評価が必要なのか?

RAGを導入する際には、その性能を要素ごとに正しく評価し、課題を整理することが重要です。評価を始める際は、3つの観点で整理してみるのが良いかと思います。

1. 参照データの確認

使用するサービスによって、RAGに登録できる(ベクトル化に対応した)データ形式は異なります。自身が使用するサービスや環境で利用できるデータ形式が何かをまず確認することが重要です。RAGは一般的にmd(マークダウン)やtxt(テキスト)のようなドキュメント形式のデータが推奨されています。一方でxlsx(エクセル形式)などの構造化データは精度面では推奨されておらず、データ形式の変換などが推奨されています。また、文章が長すぎる、専門的すぎる場合はLLMがそもそも学習していないデータとなるため、ハルシネーション(幻覚)のリスクが高まり、回答精度が低下している可能性があります。

2. 検索機能の確認

RAGに登録したデータについて検索した際に、検索されたドキュメントが引用元として適切かどうかを確認します。

3. 回答機能の確認

2の検索機能が正しく機能しており引用情報は正しいことが前提で、出力内容の形式について評価します。まずは回答上問題ないと判定する基準を定めることが評価の属人性を排除するために重要となります(例えば、○○に関する記述があるorない)。評価の基準が定まったら回答内容に不足がないか、または不要な情報が含まれていないかなど、設定した基準に沿って回答の品質を確認します。

これらのチェックを定期的に行い、RAGの課題管理と対応を逐次行うことで、組織におけるRAGの浸透を効率的に進めることができます。

※RAGの精度についての簡易診断

2-2. 自動評価と人手評価

RAGの評価には、大きく分けて「自動評価」と「人手評価」の2種類があります。いずれも質問に対して正解データに該当する文章を準備し、LLMによって出力された文章と比較します。その際に自動評価はLLMなどを用いてプログラムで2つの文章間の評価を行います。一方で、人手評価は人が2つの文章を比較して評価を行うことを指します。

それぞれ異なるメリットとデメリットがあります。自動評価は効率的で一貫性があり、大規模なデータセットに適していますが、文脈やニュアンスを理解する能力に限界があり、柔軟性にも欠けます。一方、人手評価は高い精度と柔軟性を持ち、細かなニュアンスや創造的な回答も評価できますが、時間とコストがかかり、一貫性の欠如や評価者の疲労・バイアスの影響を受けやすいです。

これらを考慮して、一般的には自動評価で広範なデータを迅速に評価し、人手評価を補完的に用いることで、評価の精度と効率を両立させることが望ましいとされています。出力された文章を業務利用する際に、想定される用途やリスクを鑑みて評価方法を設計すると良いかと思います。

2-3. 検索と生成の評価

これまでの観点から、機能別(検索機能と回答機能)評価者別(人手と自動)に評価方法を再整理します。

※自動評価の指標はRAGASという自動評価を行うフレームワークに沿ったものです。後段で解説します。

これらのマトリクスの要素を組み合わせて総合的に評価することで、RAGの精度向上が期待できます。

NTT東日本初の生成AIサービスのご紹介資料です。ぜひダウンロードして生成AI導入にご活用ください!

3. RAGの評価手法の検証

3-1. 評価の実例

本コラムではRAGASという、RAGやLLMの出力を評価するPython向けのライブラリを用いて、実際の自動評価の手法を紹介します。RAGASは、主に「文脈の適合度(Context Precision)」「応答の正確性(Answer Correctness)」「信頼性(Faithfulness)」などの自動評価機能が含まれています。RAGASは検索で取得された文脈と、生成した回答が、質問に対してどれだけ適切かを定量的に評価でき、RAGシステムの改善やチューニングに役立ちます。

自動評価の一例として、信頼性(Faithfulness)を評価事例を紹介します。信頼性は、モデルの生成文が参照文をもとに忠実に生成されたかどうかを評価します。実際の評価例を2組紹介します。下記の例で「文脈」が参照文に、「回答例」がモデルの生成文に相当します。

※これらのテスト用データも生成AIを用いて作成しています。

回答例を2パターン用意して信頼性を比較しました。回答例(忠実)のものは文脈に則した内容で、回答例(忠実でない)ものは文脈に則さない内容です。

これらを評価したところ、セット1は文脈に忠実な文章のスコアが0.6程度、忠実でない文章は0.3程度となりました。同様に、セット2では文脈に忠実な文章のスコアが0.3程度、忠実でない文章は0程度となり、妥当な結果となりました。使用したコードは以下のようなシンプルなものです。

※RAGASのライブラリは比較的簡単に使用開始することができます。

この他にもRAGASの提供する指標として一般的なものに、生成文と参照文に共通する文字列の割合を示すContext Precisionや、回答に必要な情報を参照文から参照できている指標であるContext Recallなどがあります。

NTT東日本初の生成AIサービスのご紹介資料です。ぜひダウンロードして生成AI導入にご活用ください!

4. RAGを活用した生成AIならNTT東日本にお任せください

NTT東日本では、生成AIの環境提供や活用促進に関するコンサルティング、生成AIのユースケース創出に向けた技術支援を行っております。

また、企業内ドキュメントに基づいた拡張ドキュメント検索機能としてのRAGについてもサービスを提供しております。

NTT東日本が提供する生成AIソリューションについてはこちらからお気軽にお問い合わせください。

5. まとめ

RAGは、LLMの限界を補い、正確かつ信頼性の高い情報を提供できる技術です。しかし、その性能を最大限に活かすためには、適切な評価が不可欠です。RAGの評価では、「検索の精度」と「生成の品質」の両方を測定する必要があります。

自動評価と人手評価を組み合わせることで、精度向上に寄与するより正確な要因分析と迅速な改善施策の実行が可能になります。

企業や行政でRAGを活用する場合、運用時の信頼性の維持が重要です。本コラムで紹介した評価方法は定期的に実施することで運用時の信頼性も担保できます。今後もRAGの評価方法が進化し、より精度の高いシステムが開発されていくことが期待されます。

NTT東日本初の生成AIサービスのご紹介資料です。ぜひダウンロードして生成AI導入にご活用ください!

無料ダウンロード

自社のクラウド導入に必要な知識、ポイントを
このに総まとめ!

あなたはクラウド化の
何の情報を知りたいですか?

  • そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
  • 【AWS・Azure・Google Cloud】
    どれが自社に最もマッチするの?
  • 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
  • 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?

初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。

NTT東日本では
そんなあなたにクラウド導入に必要な情報を

1冊の冊子にまとめました!

クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・

  • システムインフラの維持にかかるトータルコストがあまり変わらない。。
  • 情シス担当者の負担が減らない。。
  • セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
  • そもそも”クラウド化”とは?
    その本質的なメリット・デメリット
  • 自社にとって
    最適なクラウド環境構築のポイント
  • コストを抑えるため
    具体的なコツ
  • 既存環境からスムーズにクラウド化
    実現するためのロードマップ

など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。

クラウドのわからない・
面倒でお困りのあなたへ

クラウドのご相談できます!
無料オンライン相談窓口

NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!

NTT東日本が選ばれる5つの理由

  • クラウド導入を
    0からワンストップでサポート可能!
  • 全体最適におけるコスト効率・業務効率の改善
    中立的にご提案
  • クラウド環境に問題がないか、
    第3者目線でチェック
    してもらいたい
  • 安心の24時間・365日の対応・保守
  • NTT東日本が保有する豊富なサービスの組み合わせで
    ”課題解決”と”コスト軽減”を両立

特に以下に当てはまる方はお気軽に
ご相談ください。

  • さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
  • オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
  • オンプレミスとクラウド移行した際のコスト比較を行いたい
  • AWSとAzure、どちらのクラウドが自社に適切かわからない
  • クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
  • クラウド利用中、ネットワークの速度が遅くて業務に支障がでている

クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。

ページ上部へ戻る

相談無料!プロが中立的にアドバイスいたします

クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。