教師なし学習とは?覚えておきたい機械学習の学習手法概要

近年、さまざまな分野で活用されているAI(人工知能)ですが、その技術を支える技術の一つが機械学習です。機械学習によってコンピュータは大量のデータを学習して分類や予測などを実現しますが、その学習手法にはいくつか種類があることをご存知でしょうか。そのうちの一つが「教師なし学習」であり、この記事では教師なし学習について概要から活用例、メリット・デメリットなどについて解説していきます。

教師なし学習とは?

機械学習の学習手法の一つである教師なし学習はどのようなものなのでしょうか。ここでは、教師なし学習の概要から利用する目的、活用例を見ていきましょう。

教師なし学習の概要

教師なし学習は、学習データに正解を与えない状態で学習させる学習手法です。学習データに正解を与える「教師あり学習」と対をなす機械学習の学習手法となっています。教師なし学習では予測や判定の対象となる正解が存在しないため、教師あり学習とは違い回帰や分類の問題には対応できません。回帰は株価の予測や気象分析に利用されるアルゴリズムであり、分類は植物や動物などのカテゴライズを実現するアルゴリズムです。

では教師なし学習ではどのような問題に対応できるのでしょうか。教師なし学習で行なう代表的な例は「クラスタリング」と「次元削減」です。クラスタリングはデータの特徴からグルーピングすることであり、例えばA・B・Cという特徴を持つデータが無造作に配置されていた場合、人間であれば正解を示さずともAグループ・Bグループ・Cグループとグルーピングできます。教師なし学習のクラスタリングを用いることで、コンピュータが自動的にグルーピングすることが可能なのです。

次に、次元削減はデータを特徴づける情報を抽出することを表します。データの次元数を減らすことで本質的な情報を導き出す手法とも言えるでしょう。例えば、学校のテストで国語80点、英語90点、理科60点、数学45点という学生がいた場合、この学生は「文系が得意な学生」と見ることができます。これはデータの次元数を減らしてデータを特徴づける情報を抽出しており、機械学習の次元削減でもコンピュータが自動的にこのようなことを実現できるのです。

このように教師なし学習は、正解・不正解が明確でない場合に効果を発揮します。

教師なし学習を利用する目的

教師なし学習を利用する目的は、データ内に存在する未知のパターンを見つけ出すことにあります。

世の中には正解・不正解が明確でない問題は数多く存在しています。教師なし学習では、そのような問題を解決するために用いられるのです。例えば、いままでに販売したことの無い新製品のターゲット市場を決める場合など、望ましいとされる結果に関するデータが無い場合に利用されます。

いままでに販売したことの無い製品であれば、どのような層がターゲットになり得るのかといった正解となるデータが存在しません。その場合、教師あり学習ではアルゴリズムのトレーニングができないのです。このような場合に教師なし学習であれば、ある程度の情報からクラスタリングと次元削減を用いてターゲットの予測が実現でき、データ内の未知のパターンを導き出すことが可能となります。

しかし、教師なし学習によって導き出される結果は、必ずしも好ましいものとは限りません。あくまでもデータの特徴からグルーピングされたものであり、正解かどうかは判断できないのです。そのため、実際の問題に関しては教師あり学習のほうが適している場合がほとんどと言えるでしょう。

教師なし学習の活用例

実際の問題には教師あり学習が適しているとお話ししましたが、教師なし学習を活用している事例ももちろん存在します。ここではその事例をいくつか見ていきましょう。

一つ目は人工歯のデザインで活用されている事例であり、カリフォルニア大学バークレー校と歯科先端技術研究所のGlidewell Dental Labが共同で開発を進めています。従来、人工歯は歯科医が時間をかけて一人ひとりに合わせて調整していますが、この事例ではGANと呼ばれるアルゴリズムを利用して人工歯の画像生成をAIによって実現しました。

GAN(Generative Adversarial Network)は敵対的生成ネットワークとも呼ばれ、2つのモデルを互いに競わせて入力データの学習を深め、新しい擬似データを生成するモデルです。このGANによって生成された人工歯は、歯科医が作成したものよりも噛み合わせが良かったとも言われています。

二つ目は自動運転AIの画像認識での活用事例です。こちらはまだ開発中のものになりますが、現在の教師あり学習によるデメリットの克服のために活用できると考えられています。自動運転では自動車や信号、人などさまざまなものを認識し、即座に判定しなければなりません。そのため、教師あり学習では学習のために膨大な量のデータが必要であり、学習にかかる時間も作業量も非常に膨大になってしまいます。

そこで、教師なし学習の正解・不正解のデータを用意する必要が無い、という特徴が注目されており、教師なし学習の精度を高めることができればコストと時間を大幅に削減できるとして自動運転AI分野で注目されているのです。

実際にアメリカのスタートアップ企業であるHelm.aiは、教師なし学習を活用した自動運転向けソフトウェアを開発しており、自動運転開発に取り組む企業向けのイベントでは「AIと機械学習の最も革新的な仕様」部門で高く評価されています。

教師なし学習のメリットとデメリット

ここまでにも軽く触れてきましたが、教師なし学習にはメリットとデメリットが存在します。

教師なし学習のメリットとしては、データに正解・不正解のラベルを付ける必要が無いため、教師あり学習と比べてスタートしやすい点が挙げられます。このことから、教師あり学習よりも効率的で時間やコストをかけずに理想とする学習結果が得られる可能性も挙げられるでしょう。

しかし、正解となる学習データが無いため、教師なし学習の学習結果の精度は低くなる傾向にあります。人間が想定できない新たなパターンを見つけ出せる反面、そのパターンが役に立たないことも考えられ、この点はデメリットと言えるでしょう。

現在の教師なし学習は、正解・不正解が明確でない場合に利用されることから、教師あり学習が利用できない場合に用いられる学習手法と言えます。しかし、事例で紹介したとおり教師なし学習の学習精度を高めて自動運転に活かす試みも実施されており、今後は教師なし学習の活躍の場は広がる可能性があります。

AWSやMicrosoft AzureのAIサービスを利用する際の教師なし学習の位置づけ

最後に、AWSやAzureで教師なし学習が利用できるサービスや、その位置づけについて見ていきましょう。

教師なし学習が利用できるサービスとしては、AWSならAmazon Sagemaker、AzureならAzure Machine Learning Serviceが挙げられます。それぞれ機械学習モデルを構築から管理・デプロイできるプラットフォームですが、教師なし学習を利用する際には、学習するデータとあわせて処理モデルをユーザー側で作成しなければなりません。

AWSやAzureでは、機械学習モデルが構築済みのAIサービスも用意されていますが、その多くは教師あり学習やディープラーニングが用いられており、教師なし学習を活用する場合はAmazon SagemakerやAzure Machine Learningを活用しましょう。

それぞれの詳細については、「機械学習に必要な「モデル開発」~「推論」ができるAmazon SageMakerを解説」と「Azure Machine Learning Studioによる機械学習入門」にて詳しく解説していますので、こちらもぜひご覧ください。

教師あり学習と教師なし学習の特徴を理解して適切な選択を

教師なし学習は機械学習の学習手法の一つであり、学習データに正解を与えない状態で学習させる学習手法です。教師なし学習の代表的な例としてクラスタリングと次元削減が挙げられ、未知のパターンを見つけ出す場合に利用できます。

教師あり学習と比べて学習精度が低く、教師あり学習が利用できない場合に用いられる手法とも言えますが、自動運転AIで活かす試みがなされており、今後の技術発展によっては活躍の場が広がるかもしれません。

AIや機械学習を知る上で、教師あり学習とあわせて知っておくべき学習手法と言えるでしょう。

Amazon Web Services(AWS)、Microsoft Azureの
導入支援サービスのご相談、お問い合わせをお待ちしております。

ページ上部へ戻る