教師あり学習とは?覚えておきたい機械学習の学習手法概要

AI(人工知能)の根幹をなす機械学習には、いくつかの学習手法が存在します。そのなかでも、最も代表的な学習手法が「教師あり学習」です。教師あり学習は 事前に人間が用意した正解データをもとに学習させる方法であり、さまざまなシステムやサービスで活用されています。
今回は、機械学習の教師あり学習の概要や利用する目的、活用例とあわせて、メリット・デメリット、クラウドサービスでの位置づけについて見ていきましょう。

教師あり学習とは?

はじめに、教師あり学習の概要や目的、活用例を紹介します。教師あり学習がどのようなものなのか、他の機械学習の学習手法との違いなども含めて紹介します。

教師あり学習の概要

教師あり学習は、学習データに正解を与えた状態で学習させる手法です。学習データに正解を与えない「教師なし学習」と対をなす機械学習の学習手法となっています。教師あり学習では、トレーニングデータや教師データなどと呼ばれる正解となる学習データを利用します。つまり、正解・不正解が明確な問題の解決に利用できる学習手法なのです。例えば、システムの不正行為の検出や、おすすめ製品のパーソナライズなどを実現できます。

教師あり学習で利用されるアルゴリズムとしては、回帰と分類が代表的な例であり、回帰は株価の予測や気象分析に利用され、分類は植物や動物などのカテゴライズを実現するアルゴリズムです。教師あり学習は学習と認識・予測の2段階のプロセスで構成されており、このプロセスを実現するアルゴリズムとして回帰と分類が使用されます。なお、ディープラーニング(深層学習)は基本的に教師あり学習を発展させたものです。

また、教師あり学習と教師なし学習は学習データに正解を与えるか否かという違いがありますが、正解が明確である場合には教師あり学習、不明確な場合には教師なし学習を用います。そのため、教師あり学習のほうが学習精度は高く、基本的には教師あり学習が用いられる機会が多いと言えるでしょう。

教師あり学習を利用する目的

教師あり学習を利用する目的は、データを実用的な価値へと昇華させることです。近年はビッグデータと呼ばれる膨大な量と種類のデータを活用し、ビジネスに活かすことが求められています。例えば、製造業であれば工場のラインで稼働している機械の温度や稼働時間などをデータとして取得することで、いち早く設備の異常を検知したりボトルネックとなる機械の特定ができたりします。しかし、機械の温度や稼働時間などのデータ単体では実用的な価値があるとはいえません。

教師あり学習では、例えば機械の温度であれば60℃を超えたら異常などの正解を与えて学習を続けることで、AIによって人間のように自動的に判断できるようになります。機械の温度や稼働時間などの単体で見れば、人間が一つひとつ対応しても問題ありませんが、さらに確認項目が増え、機械の台数も増えたりすると手間とコストは無視できません。そこで教師あり学習を活用してAIに学習させ、その精度を上げることができればコストの削減に繋がり、教師あり学習で用いられるデータは実用的な価値が見いだされるのです。

教師あり学習の活用例

教師あり学習の活用例としては、次のようなものが挙げられます。

  • 電子メールのスパム判定
  • 株価や住宅価格の予測
  • 工業機械の故障予測
  • 顧客の生涯価値の判定(マーケティングなどで使われます。収益性の高い既存の顧客に類似した新規顧客を特定したりします。)
  • 店舗の最適な人員配置の予測
  • など

    これはあくまでも一例ですが、正解や最適とされる答えが明確になる問題に関しては、教師あり学習は大きな効果を発揮します。おもに予測や判定として活用される例が多いと言えるでしょう。

    そのほかにも、具体的な活用例として銀行取引の詐欺予測について詳しく見てみます。この活用例では、例えば数千件の銀行取引データを取り引きごとに「詐欺である」「詐欺ではない」とラベルを付けます。このラベルが正解・不正解のデータであり、教師あり学習ではこのデータをもとにパターンを識別する学習を重ね、時間が経過するとともに取り引きが詐欺かどうかを正確に予測できるようになるのです。

    このように、学習に用いられる過去のデータが多い場合には、教師あり学習が効果的です。

教師あり学習のメリットとデメリット

教師あり学習のメリットとしては、人間が正解となるデータを与えるため学習精度が高く、学習速度も早いことが挙げられます。学習に用いられる過去データが多いほど学習精度は高くなる傾向にあります。

反対にデメリットとしては、正解が存在しない分野には利用できないことや、正解となるデータの質が学習精度に影響を与えることです。教師あり学習では正解となるデータを与えなければならないため、例えば初めて販売する製品のターゲット市場を決める場合などでは利用できません。この場合には、正解データが不要な教師なし学習を利用します。

また、正解となるデータの質が悪ければ、それをもとにAIは学習を行うため学習精度が悪くなる可能性があります。AIの学習には多くの時間を費やすことが多く、質の悪い正解データを用いてしまうと学習に費やした時間と手間が無駄になりかねません。加えて、学習精度を高めるために多くのデータを準備しなければならないため、教師あり学習をスタートさせるまでに時間や手間がかかることもデメリットとして挙げられるでしょう。

AWSやMicrosoft AzureのAIサービスを利用する際の教師あり学習の位置づけ

最後に、AWSやAzureで教師なし学習が利用できるサービスや、その位置づけについて見ていきましょう。

教師あり学習が利用できるサービスとしては、AWSならAmazon Sagemaker、AzureならAzure Machine Learning Serviceが挙げられます。それぞれ機械学習モデルを構築から管理・デプロイできるプラットフォームですが、教師あり学習を利用する際には、学習データなどを準備すればクラウド事業者がサービスとしている処理モデルが利用可能です。加えて、データの蓄積に応じて処理モデルも賢くなります。

それぞれの詳細については、「機械学習に必要な「モデル開発」~「推論」ができるAmazon SageMakerを解説」「Azure Machine Learning Studioによる機械学習入門」にて詳しく解説していますので、こちらもぜひご覧ください。

教師あり学習と教師なし学習の特徴を理解して適切な選択を

教師あり学習は機械学習の学習手法の一つであり、学習データに正解を与えた状態で学習させる学習手法です。教師あり学習の代表的な例として回帰と分類が挙げられ、正解が判明している問題の解決に役立てられます。教師あり学習はさまざまな問題に適用でき、例えば過去100年の都市人口のデータに基づいて今後4年間の人口推移を確認するなど、予測と判定によってデータを実用的な価値へと昇華させることが目的です。

教師あり学習は正解データを人間が与えるため学習精度が高く、学習速度も早いメリットであり特徴です。反対に正解が存在しない分野での利用ができないことや、正解データの質が学習成果を左右すること、準備に手間と時間がかかることがデメリットとして挙げられます。

AIや機械学習を知る上で、教師なし学習とあわせて知っておくべき学習手法と言えるでしょう。

Amazon Web Services(AWS)、Microsoft Azureの
導入支援サービスのご相談、お問い合わせをお待ちしております。

ページ上部へ戻る