2024.11.13 ｜ Writer：NTT東日本　アベ

ハルシネーションとは？生成AI利用のリスクと対策を解説！

生成AIが身近になった今、DXの推進や業務効率化などの目的で生成AIをビジネスに取り入れる企業・自治体が増えています。便利な生成AIですが、利用する際に注意したいのが、事実に基づかない回答を生成する「ハルシネーション」という現象です。

本コラムでは、ハルシネーションの概要や種類、ハルシネーションが引き起こすリスク、具体的な対策について紹介します。

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

1. AIの進化とハルシネーション
2. ハルシネーションとは何か？
3. ハルシネーションの種類: 3-1. Intrinsic Hallucinations; 3-2. Extrinsic Hallucinations
4. ハルシネーションが引き起こすリスク: 4-1. ビジネスへの影響; 4-2. 情報セキュリティへの脅威; 4-3. 社会への影響
5. 自治体における生成AIの活用と懸念されるハルシネーション: 5-1. チャットボットによる問い合わせ対応の自動化; 5-2. 定型文書の作成
6. ハルシネーション対策の具体的な方法: 6-1. プロンプトの工夫・プロンプトエンジニアの設置; 6-2. ファインチューニングの実施; 6-3. RAG環境の構築
7. NTT東日本のクラウドソリューションが提供するハルシネーション対策
8. まとめ

1. AIの進化とハルシネーション

生成AIをはじめとするAI技術は、ここ数年で急速に発展しました。代表的な生成AIとしては、2022年に登場した対話型AI「ChatGPT」が挙げられます。使いやすいUI設計や人間味のある自然な対話能力、文章やプログラミングコードなどのテキストを数十秒で生成できるなどの機能が話題となり、約2ヶ月で1億人のユーザーを獲得。生成AIブームの火付け役になりました。

ChatGPTの公開以降は、Google やMetaなどのIT大手企業が生成AI技術を使ったサービス・ツールを次々に発表。現在では生成AI技術は身近な存在となり、業務の一部に生成AIを取り入れ、効率化を図る企業・自治体も増えています。

その一方で、生成AIには注意すべき点も多くあります。なかでも、特に意識しておきたいのがハルシネーションです。ハルシネーションが起こったことに気付かず、生成された回答をそのまま利活用すると、取り返しのつかない問題に発展することもあります。生成AIをビジネスに取り入れる際には、ハルシネーションが起こる原因や対策などをしっかりと把握することが大切です。

あらためて学ぶ「ChatGPT」導入方法や便利な使い方を知ろう！

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

2. ハルシネーションとは何か？

ハルシネーションとは、事実に基づかない回答を生成する、生成AI特有の現象です。AIが幻覚（ハルシネーション）を見ているかのように、もっともらしい誤った回答を生成することから、このように呼ばれています。

生成AIは、膨大なデータと高度なディープラーニング技術で構築された「LLM（Large Language Models：大規模言語モデル）」を利用して処理を行っています。LLMは、学習したデータの中から関連性の高い文章や単語などの出現確率・頻出度合いをモデル化し、ある言葉に続く可能性の高い言葉を予測してテキストを生成します。そのため、誤った情報が紛れていても正誤の判断ができず、正しい情報かのように回答してしまいます。これがハルシネーションのメカニズムです。

ハルシネーションが起こる原因としては、次のことが挙げられます。

学習済みデータの情報が古い
学習済みデータの情報が不足している
学習済みデータの情報が間違っている
学習済みデータの組み合わせが間違っている
文脈を理解できない
正誤判定ができない
LLMの学習プロセスに問題がある　etc.

LLMは、過去のデータを学習して回答を生成するため、最新の情報が反映されていないことがあります。また、データの正誤判断ができないため、インターネット上の誤った情報を学習してしまうこともあります。加えて、前述の通り、「ある言葉に続く可能性の高い言葉を予測してテキストを生成する」ため、質問の意図を理解できない場合は文脈が破綻した回答を提示することもあるのです。

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

3. ハルシネーションの種類

ハルシネーションには、生成結果の違いによって、2つの種類に分類できます。

3-1. Intrinsic Hallucinations

学習データとは異なる内容の回答を生成するもので、「内在的ハルシネーション」とも呼ばれます。例えば、「東京スカイツリーの高さはどれくらい？」と質問した際、「634m」という情報を学習しているにもかかわらず、「東京スカイツリーの高さは333mです」などと回答する場合がこれに該当します。

3-2. Extrinsic Hallucinations

学習データに存在しない内容の回答を生成するもので、「外在的ハルシネーション」とも呼ばれます。学習データに「世界一高い電波塔は東京スカイツリー」という情報が含まれているとき、「世界一高い電波塔である東京スカイツリーでは、定期的にバードウオッチングイベントが開かれています」などと、データに含まれない回答をする場合がこれに該当します。

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

4. ハルシネーションが引き起こすリスク

ハルシネーションが発生することで、次のようなリスクが考えられます。

4-1. ビジネスへの影響

企業・自治体がハルシネーションによって生成された誤情報をビジネスに利用してしまうと、戦略設計の破綻や業務効率の低下、経済的な損失などを招く可能性があります。また、顧客や取引先からの信用が損なわれ、結果として売上やブランドイメージの悪化につながるリスクも考えられます。

4-2. 情報セキュリティへの脅威

フィッシング詐欺などの不正なリンクや、情報セキュリティソフトに対しての不正確なアドバイスなどが生成された場合、それらを利用したユーザーの個人情報の漏えいや、悪意のある攻撃によって情報セキュリティ侵害などを招くリスクが高まります。企業のセキュリティポリシーに対する信頼が損なわれ、情報漏えいや詐欺の被害が増加する可能性もあります。

4-3. 社会への影響

ハルシネーションによってフェイクニュースや虚偽情報が生成・拡散されることで、社会的な混乱やパニックを引き起こす可能性があります。例えば、災害時に虚偽の避難情報や被害状況が広がると、人々が誤った行動をとり、さらに混乱を助長する恐れがあります。

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

5. 自治体における生成AIの活用と懸念されるハルシネーション

自治体においても、次のようなシーンで生成AIが活用されていますが、ハルシネーションが発生する可能性もあります。

5-1. チャットボットによる問い合わせ対応の自動化

生成AIの活用例とメリット	懸念されるハルシネーション
生成AIにFAQ（よくある質問）を学習させ、チャットボットと生成AIを組み合わせることで、24時間問い合わせ対応が可能になる自動返答により、迅速に情報を提供できるほか、窓口業務の負担軽減にもつながる	FAQの情報が古い、行政手続の方法が変更されているなどの場合、住民に誤った指示を出してしまう恐れがある

5-2. 定型文書の作成

生成AIの活用例とメリット	懸念されるハルシネーション
公的文書や報告書といった文書作成に生成AIを活用することで、作業時間の短縮や正確性の向上が図れる定型文書の場合、必要な情報や手順を生成AIが学習して自動で作成することが可能になる	名称や数字などが間違っていても、読み込まれたデータをそのまま使用して文書を生成してしまうことがある

6. ハルシネーション対策の具体的な方法

生成AIの特性上、ハルシネーションを完全に防ぐことは難しいですが、次のような方法で発生確率を抑制することができます。

6-1. プロンプトの工夫・プロンプトエンジニアの設置

「プロンプト」とは、生成AI（LLM）に対して指示を与えるためのテキストです。「生成AIが解釈違いを起こさないように具体的な指示を出す」「出力範囲に制限を設けて不必要なデータを利用しないようにする」など、プロンプトを工夫することで、生成結果の精度や信頼性の向上に期待できます。

プロンプトエンジニアは、生成AIからの回答が正確かつ期待される結果を生成できるように、プロンプトを設計・最適化する役割を担います。生成AIに対する知見が豊富なプロンプトエンジニアを設置することで、生成AIをニーズに応じた回答ができるように改善・調整でき、ハルシネーションのリスクを抑えることが期待できます。

6-2. ファインチューニングの実施

「ファインチューニング」とは、生成AIの基盤モデルが特定のタスクに対応できるように、別のデータセットを追加して再トレーニング（微調整）するプロセスです。ファインチューニングを行うことで、より精度の高い結果を生成できるようになり、ハルシネーションのリスクを低減できます。

6-3. RAG環境の構築

「RAG」とは、LLMの生成プロセスに、信頼性の高い外部情報の検索を組み合わせることで、プロンプトだけではコントロールしづらい出力精度を向上させるフレームワークです。最新の情報や専門分野のデータベースなどの外部情報を参照することが可能になるため、エビデンスが明確で質の高い回答が生成できるようになります。

RAGについては、こちらの記事で詳しく解説しています。

RAGとは？仕組みと導入メリット、使用の注意点をわかりやすく解説

NTT東日本では、生成AIやクラウドに関する情報をメールマガジンにて発信しています。ご購読を希望される方は、ぜひこちらからご登録ください。

7. NTT東日本のクラウドソリューションが提供するハルシネーション対策

NTT東日本では、「自治体様向け生成AIソリューション」を提供しています。生成AI導入・活用支援や、ハルシネーションを防ぎながら生成AIをセキュアに利用するための管理機能の提案、ユースケースの創出など、お客さまの課題に応じたベストなソリューションをご提供。DXの推進に向けて、地域DXアドバイザーと生成AIエンジニアが伴走支援いたします！

生成AI活用なら、NTT東日本の自治体向け生成AIソリューション

8. まとめ

生成AIを利用する上でハルシネーションは避けられない課題ですが、しっかりと対策をとることでリスクを抑制することは可能です。ハルシネーションが発生しないような環境を構築し、生成AIを存分に活用してDXを推進しましょう。生成AIの導入をお考えの方は、ぜひNTT東日本にお任せください！

生成AIの活用に向けて、地域DXアドバイザーや生成AIエンジニアが徹底サポートいたします。

サービスや事例の紹介、見積などお気軽に
お問い合わせください。