RAGの回答精度を高める「データクレンジング」の実践法とは?

生成AIのビジネス活用が進む中で、社内ナレッジを活用した検索拡張生成(RAG:Retrieval-Augmented Generation)への関心が高まっています。しかし、導入後に「期待したような精度が出ない」といった声も多く、その背景には「学習に使われるデータの質」の問題があります。
本記事では、RAGの精度を左右する「データクレンジング」に焦点を当て、その基礎知識や実践手法について解説します。
1. RAGとは
RAG(Retrieval-Augmented Generation:検索拡張生成)は、生成AIの回答精度を高めるために、外部のナレッジベース(社内文書やマニュアルなど)を検索・参照しながら回答を生成する仕組みです。一般的な生成AIが持つ広範な知識に加え、社内固有の最新情報や専門知識を反映できるため、ハルシネーション(もっともらしい嘘の回答)を抑制し、信頼性の高い回答を生成できる技術として、多くの企業で導入が進められています。
2. RAGの精度を左右するデータクレンジングの重要性
RAGの仕組みは、「検索(Retrieval)」と「生成(Generation)」の2段階で構成されます。このうち、回答の質を大きく左右するのが、最初の「検索」フェーズです。検索対象となるデータが不正確であったり、ノイズが多かったりすれば、適切な情報を引き出すことができず、結果として回答の精度は著しく低下します。この「検索」の精度を高めるために不可欠なのが、データクレンジングです。
2-1. データクレンジングとは
データクレンジングとは、情報の正確性・一貫性・整合性を保つために、不要なノイズや重複、表記揺れなどを取り除き、形式を標準化・構造化する作業を指します。
ExcelファイルやPDF、議事録など形式も粒度も異なる企業内ドキュメントをRAGに活用するには、これらのファイルを“生成AIが理解しやすい形”に整える必要があります。
2-2. データクレンジングがRAGに与える影響
データクレンジングを適切に行うことで、RAGの性能は飛躍的に向上します。具体的には、主に以下の3つの効果が期待できます。
2-2-1. ノイズ除去による情報の精度向上
誤記や古い情報、本文とは直接関係のない画像キャプションなどのノイズが含まれると、生成AIはそれを「正確な情報」として学習して回答に反映してしまうおそれがあります。ノイズを事前に除去することで、RAGが参照する情報源の信頼性が高まり、誤回答のリスクを大幅に低減できます。
2-2-2. データ形式の標準化による抽出効率の改善
同じ内容でも表記形式が統一されていないと、検索フェーズが正確に関連文書を特定できない場合があります。例えば「FAQ」「よくある質問」「お問い合わせ内容」などが混在しているケースでは、検索性能が低下する可能性があります。
表記の標準化は、文書の抽出効率と生成AIの理解精度を高める上で不可欠です。
2-2-3. メタデータの整備による検索精度と管理性の強化
ドキュメントごとに「文書の種類」「発行年月日」「対象部署」などのメタデータを付与しておくことで、検索対象の絞り込みや管理が容易になります。
また、メタデータは検索精度の向上だけでなく、データ更新や差し替えといった保守運用の観点でも重要な役割を果たします。
3. 効果的なデータクレンジングの方法
データクレンジングの具体的な実践方法を紹介します。
3-1. ノイズ除去とデータ整合性の確保
まず、ノイズの除去とデータの整合性の確保です。具体的には、以下のような対応を行います。
- 信頼性の確保:RAGが正確な回答を生成するためには、信頼できるソースからのデータが前提です。また、同じ問題に対して異なる解決法が存在するなどの矛盾が存在すると混乱の元になるため、信頼性の高い方に修正します。
- 重複データの削除:全く同じ内容のファイルや、ほぼ同じ内容の改訂版ファイルが複数存在する場合、最新版以外は削除またはアーカイブし、生成AIが古い情報を参照しないようにします。
- 表記揺れの統一:企業名、製品名、専門用語など、表記の揺れを統一します。辞書を作成し、機械的に置換処理を行うのが効率的です。日付や数値の形式も統一しましょう。
- 文字エンコードの統一:文字化けを防ぐため、すべてのテキストデータを「UTF-8」などの標準的なエンコードに統一します。また文字コードの不一致による文字化けは修正します。
- 不要な要素の除去:PDFやWord文書に含まれるヘッダー、フッター、ページ番号、図表番号などを機械的に除去します。文字間の不要なスペースは、削除または適切に補完して整えます。
これにより必要な情報だけが残ります。
3-2. 適切なチャンク分割
RAGでは、検索対象の文書を「チャンク」と呼ばれる小さな単位に分割してデータベースに格納します。このチャンクの作り方が、検索精度に大きく影響します。
文脈の意味が分断されないよう、セマンティック(意味に基づいた)分割を行い、またチャンク間で一部の内容を重ね合わせるオーバーラップ処理を行うことで、文脈の滑らかな引き継ぎが可能になります。
- セマンティック分割(意味的分割):単純に文字数で区切るのではなく、文章の意味的なまとまり(段落やセクション)を維持したまま分割する手法です。これを行うことで、文脈が途切れることなく、関連性の高い情報が検索されやすくなります。
- オーバーラップ:チャンクとチャンクの間に、数十文字程度の「重なり(オーバーラップ)」を持たせる手法です。文章の切れ目で重要な情報が分断されてしまうことを防ぎ、文脈の連続性を担保します。
適切なチャンクサイズやオーバーラップの値は、文書の種類によって異なるため、試行錯誤しながら調整することが重要です。特に手順書やFAQなど、段階的な情報を含む文書では、分割方法一つで検索結果の質が大きく変わるため注意が必要です。
3-3. メタデータ(属性情報)の付与
各チャンクや文書に対して、以下のようなメタデータを付けておくことで、検索やフィルタリングが容易になります。
- 基本的なメタデータ:ファイル名、作成日、更新日、作成者、文書の種類(マニュアル、議事録、規定など)といった基本的な情報を付与します。
- 業務に即したメタデータ:「対象製品」「関連部署」「承認ステータス」「有効期限」など、業務に即した独自のタグを付与することで、より実用的な検索が可能になります。例えば、「現在有効な製品Aのマニュアル」といった検索が実現できます。
生成AI側での回答根拠の明示やユーザーへの説明責任の観点からも、メタデータは欠かせない要素です。
3-4. データ構造化とフォーマット統一
多くの企業では、Excelなどの構造化データの他に、PDFやWord、PowerPointなど非構造化データが多数存在します。これらをそのままRAGに読み込ませても、生成AIは正確に文脈を理解できません。
- 非構造化データの整形PDF内の表や箇条書きなどを、生成AIが理解しやすい形式(Markdown形式など)に変換・整形します。これにより、単なる文章としてではなく、構造化された情報として生成AIが認識できるようになります。
- フォーマットの統一:報告書や議事録などの文書は、可能な限りテンプレート化し、フォーマットを統一します。これにより、生成AIは「どの部分に何が書かれているか」を学習しやすくなり、情報の抽出精度が向上します。
特に大量の文書を扱う場合は、構造化処理を自動化するツールの活用も効果的です。
4. 専門性が求められるデータクレンジングとNTT東日本の支援事例
RAGの運用において、データクレンジングは欠かせない工程ですが、現場の担当者が独自に行うには大きな負担となります。ノイズの除去やフォーマット統一などの作業は、一見単純に見えても膨大なデータ量に対処するには高度な知識と管理スキルが必要です。加えて、文書の種類やフォーマットが多岐にわたる企業や自治体の現場では、データの特性に応じた柔軟な対応が不可欠です。
こうしたデータクレンジングの課題に対しても、NTT東日本は手厚くサポートを行っています。例えば横浜市さまでは、2022年からの「横浜DX戦略」推進の一環として生成AIの全庁導入などの取り組みを進めており、2024年11月からはNTT東日本の伴走支援のもとRAGの実証を開始しました。その中で、選挙管理委員会の問い合わせ業務へのRAG導入を行う際、対応に必要な信頼度の高い法令書籍や資料、また昭和46年以降から積み重ねてきた問い合わせ記録データなどについてデータクレンジングを実施。業務のデータ特性を理解した上で、適切にデータクレンジングを行うことで、膨大かつ形式が異なる情報資産を効率的に整備し、生成AIがより正確に検索・回答する基盤を構築できました。
このように、専門性を要するデータクレンジングを外部の信頼できるパートナーに委託することで、短期間で高品質なRAG環境を実現することができます。
5. RAGのデータクレンジングならNTT東日本の生成AIソリューション
NTT東日本のチャット型AIアシスタント「生成AIサービス」は、生成AIをセキュアに利用するための管理機能や、導入後すぐに使える100以上のプロンプトテンプレートを提供し、RAGを活用した日々の業務を強力に支援します。データクレンジングや生成AI活用における問い合わせサポート、生成AIのスムーズな導入や活用の定着を支える各種研修なども行っており、ご要望に沿った生成AI環境の実現に向け、豊富なノウハウを元に伴走いたします。
6. まとめ
RAGの精度向上には、高性能なAIモデルや検索アルゴリズムと並んで、「質の高いナレッジデータ」の整備が不可欠です。自社内に散在する文書やナレッジを“生成AIが活用できる資産”へと整えることは、生成AI導入の成否を分けるカギとなります。そして、それを効率的に実現するには、データ整備に精通したパートナーの存在が欠かせません。生成AIの効果的な導入をお考えの方は、ぜひNTT東日本にお任せください!
無料ダウンロード
自社のクラウド導入に必要な知識、ポイントを
この1冊に総まとめ!
あなたはクラウド化の
何の情報を知りたいですか?
- そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
- 【AWS・Azure・Google Cloud】
どれが自社に最もマッチするの? - 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
- 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?
初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。
NTT東日本では
そんなあなたにクラウド導入に必要な情報を
1冊の冊子にまとめました!
クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・
- システムインフラの維持にかかるトータルコストがあまり変わらない。。
- 情シス担当者の負担が減らない。。
- セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
-
そもそも”クラウド化”とは?
その本質的なメリット・デメリット - 自社にとって
最適なクラウド環境構築のポイント - コストを抑えるための
具体的なコツ - 既存環境からスムーズにクラウド化を
実現するためのロードマップ
など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。
面倒でお困りのあなたへ
クラウドのご相談できます!
無料オンライン相談窓口
NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!
NTT東日本が選ばれる5つの理由
- クラウド導入を
0からワンストップでサポート可能! - 全体最適におけるコスト効率・業務効率の改善を
中立的にご提案 - クラウド環境に問題がないか、
第3者目線でチェック
してもらいたい - 安心の24時間・365日の対応・保守
- NTT東日本が保有する豊富なサービスの組み合わせで
”課題解決”と”コスト軽減”を両立
特に以下に当てはまる方はお気軽に
ご相談ください。
- さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
- オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
- オンプレミスとクラウド移行した際のコスト比較を行いたい
- AWSとAzure、どちらのクラウドが自社に適切かわからない
- クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
- クラウド利用中、ネットワークの速度が遅くて業務に支障がでている
クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。
相談無料!プロが中立的にアドバイスいたします
クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。






