COLUMN

AWSでのデータ分析に必要な基盤とは?メリットや分析サービスも解説

AWSでデータ分析を検討しているけれど、分析に必要な基盤がわからない方もいるでしょう。シェア率トップを誇るAWSは、データ分析に関係しているサービスを多数展開しています。多数のサービスを展開しているからこそ、どのサービスが必要なのか難しいものです。

そこで本記事ではデータ分析に必要な基盤や、AWSで展開しているサービス・競合との比較・導入前に気をつけるべき点を解説します。この記事を読めば、AWSでデータ分析をおこなうメリットが再確認でき検討材料になるでしょう。

AWSのデータ分析サービスを理解して、自社のデータを有効活用してください。

1.データ分析の重要性

データ分析とは豊富なデータを、さまざまな方法で収集や整理をし、分析することを指します。

近年消費者の価値観が複雑化するだけでなく、ビジネスも活発化しています。そのため、以前よりも担当者個人の経験だけで消費者の価値観を判断したり、経営していくのは難しくなりました。

データ分析をすることで、将来の予測が可能になったり、消費者の趣味嗜好を客観的に判断でき、より良い商品の開発に繋げられます。

ビジネスにおいて今後、先入観のないデータ分析を活用することが飛躍的に成長する突破口になるのです。

1-1.企業におけるデータ活用の現状

総務省が2020年に実施した「デジタルデータ活用の現状と課題」によると、2015年に比べ5年間で販売記録と自動取得のデータ活用は2〜5倍に伸びています。

大企業はもちろんのこと中小企業でもデータ活用を取り入れている企業はあり、活用していない企業でも全体の3割以上が「今は活用していないがこれから活用したい」と回答しました。

このように、データ活用をする企業は増え、データ活用をしていない企業でも重要視していることがうかがえます。

またデータ分析の課題としては、データの収集・管理に係るコストの増大やデータを取り扱う(処理・分析等)人材の不足などが挙げられ「コストや時間がかかる」といった点があります。

課題を解決するいちばんの方法は、データ分析基盤の導入をすることです。データ分析基盤を活用すれば、膨大なデータであっても収集から分析までスピーディにおこなえるだけでなく、正確なデータを活用できるようになります。

2.AWSでデータ分析基盤を構築するメリット

前章で述べたとおり、データ分析基盤は非常に重要です。オンプレミスではできなかったデータ分析が、AWSのデータ分析サービスを利用すれば、より細かく活用できます。

またトップシェアを誇るAWSは、数多くのデータ分析基盤のサービスを展開しており、メリットが多数あります。ここからは豊富なサービスを展開しているからこそできる、AWSのメリットを2つ紹介しますので、参考にしてください。

2-1.一気通貫のシステムを簡単に構築可能

データ分析で一番最初に発生する問題は、企業内の部署ごとにデータシステムが異なり、データ移動が困難になることです。データをまとめたくても連携がうまくできなかったり、連携ができるまでに時間やコストがかかったりします。

しかしAWSなら、AWS Data Pipelineを使うことでデータ移動を簡単におこなえます。また、ビッグデータだとしてもAmazon S3で保存ができ、デバイス間のやりとりを可能にするAWS IoTなどサービスを連動させることで、一気通貫のシステムを簡単に構築できます。

2-2.データ分析基盤の構築・運用におけるサービスが多様

AWSでは、データ分析基盤を構築・運用におけるさまざまなサービスがあります。下記に一例を紹介しますので、参考にしてください。

サービス 用途
AWS Import/Export Snowball 膨大なデータであっても高速転送できる
Amazon Athena S3内のデータ分析
Amazon QuickSight 分析結果を高度なダッシュボードで可視化できる
Amazon Kinesis Streams ストリーミングデータをリアルタイムに処理・分析
Amazon Machine Learning 分析して機械学習

このように膨大なビッグデータにも対応できるだけでなく、サービスを併用して分析結果を運用することでより自社にあったデータ分析基盤となっていきます。目的やデータ分析の容量に合わせて機械学習などのサービスを選んでいけば、不要なものをいれることなくスマートな活用ができるでしょう。

3.AWSでデータ分析をおこなうために必要なデータ分析基盤

AWSでデータ分析をおこなうためには、AWSで提供しているデータ分析基盤が必要です。

大きく分けてデータレイクとデータウェアハウス、データマートの3つに分けられます。この3つは同じデータ分析基盤ではあるものの、内容が少しずつ異なります。そこでこの章では、データ分析に必要なデータ分析基盤のサービスを紹介と、データレイクとデータウェアハウスの違いにも触れていきます。

自社でデータ分析をする際にどのようなサービスが必要なのか、ぜひ検討材料にしてください。

3-1.データレイク

データレイクとは、加工する前の生データを保管する基盤を指します。レイク(湖)というだけあり、膨大なデータを保管できる場所として、現在注目されている基盤のひとつです。データレイクの特徴は、そのままのデータとして保管できる点です。具体的には、写真や動画、口コミやアプリケーション、さまざまな箇所から収集したデータを加工することなくそのまま保管できるのです。だからこそ膨大な量のデータになることが予測されます。データが多ければ多いほど、Amazon S3を筆頭としデータを保管・管理するためのサービス活用が必須です。

ここからは、データレイクを構築するために必要な、Amazon S3・AWS Glue・AWS Lake Formationをそれぞれ解説します。

3-1-1.Amazon S3

Amazon S3はデータを保管できるストレージサービスで、Amazon Simple Storage Serviceを略してAmazon S3と呼ばれています。

用途は、アプリケーション・Webサイトのデータバックアップや復元などに使用されており、構造化されていない生データをそのまま保管できます。データの量がどれくらい増えるかは計り知れません。そのためいつでも必要な分だけ拡張できるようになっており、容量の制限がないのが特徴です。

高耐久性なので安心して保管ができ、比較的安価なのもメリットでしょう。価格帯は使った分だけ課金される従量課金制で、ストレージ量のほかにデータ転送量・リクエスト量などによって料金が加算されます。

またAmazon S3には、バージョニングという機能が備わっており、データのロールバックができます。万が一、システム障害などが起きてもやり直しがきくので安心です。

3-1-2.AWS Glue

AWS Glueは、Amazon S3の連携用バケットからデータを抽出し、データレイク保管用バケットに変換・書き出しをおこなってくれるサービスです。

データの内容によって、自動でETL処理をサーバレスでおこないます。

AWS Glueのメリットは、処理における稼働時間が2880分と長いことです。長時間稼働できるからこそ、大きなデータの処理もできます。

またもう一つの利点として、データのカタログ化ができるといった点です。データカタログにはデータの場所やスキーマなどのデータ説明を記載できます。

このデータカタログは一般的にメタデータと呼ばれており、データ分析をおこなうときに必ず必要な情報です。データカタログは常に最新になるようクロールされており、ここまでの一連の流れをすべて自動でやってくれます。

3-1-3.AWS Lake Formation

AWS Lake Formationは、スピーディにデータレイクを構築するためのツールです。

操作が苦手な人でも扱えるよう、セキュリティポリシー・データアクセス・データの配置さえ設定すればすぐに利用できます。またセキュリティ対策として、データレイクの閲覧や格納権限の管理もしなければなりません。AWS Lake Formationを利用すれば、権限の管理が可能です。

もしもAWS Lake Formationなしでデータレイクを構築するとすれば、専門家が必ず必要で時間も労力もかかります。早急に構築しデータ分析をしたい場合は、AWS Lake Formationを入れた方がよいでしょう。

3-2.データウェアハウス

データウェアハウスは「倉庫」といわれており、データレイクで保管されているデータに管理番号を振り分けて保管できるデータサーバーです。

Amazon S3のストレージサービスを、最下層としています。中間にはデータ分析システム・上層には分析結果を出力するアプリケーションが備わっており、この3つの基盤がそろって使用できます。

データウェアハウスで、データ分析をするためのサービスを紹介しますので参考にしてください。

3-2-1.AWS Redshift

AWS Redshiftは、クラウドデータウェアハウスです。

AWS Redshiftの特徴は、超並列処理(Massively Parallel Processing)を採用しており、ノードを活用し分散処理ができる仕組みがあることです。

超並列処理を採用しているからこそ、膨大なデータであっても高速処理を可能にしました。速度は数秒で解析できるほどで、数多くの企業で使われています。

また機械学習サービスを併用すれば、より高度なデータ分析も可能です。データ管理には保守の労力が必要ですが、AWS Redshiftは「自動テーブル最適化」を利用すれば自動でデータ圧縮などもおこなってくれるため、実作業も楽になるでしょう。

コスト面でもほかのデータウェアハウスより価格が抑えられ、オンデマンド料金では初期費用なしで利用可能です。

3-3.データマート

データマートとは、加工されたデータを目的別に保管するデータサーバーを指します。

データウェアハウスからはもちろんのこと、既存の外部システムからでも作成は可能です。

データウェアハウスに比べて規模は小さく、100GB未満のデータソースで利用されています。

データ構築はデータが小さいこともあり、早ければ数分で完了します。データの取り扱いが非常に簡単になり、コストパフォーマンスも高い点がメリットです。

一方で、データマートで管理できる量は少ないため、複数のデータマートがあると管理しにくく効率が悪くなります。非効率で使い勝手が悪いのであれば、全て統合できるか確認をし、データウェアハウスで管理するのもひとつの手でしょう。

3-4.データレイクとデータウェアハウスの違い

データレイクとデータウェアハウスは似ているようにみえますが、異なります。

主な違いを、見ていきましょう。

  • 横にスクロールします
  データレイク データウェアハウス
データの構造 処理されていないそのままのデータ 加工済みの構造化データ
利用目的 使用用途が決まっていなくても使用できる ビジネス
ユーザー データサイエンティスト データを管理するビジネス担当
コスト面 リーズナブル コストがかかる
メリット 生データを使う機械学習などに最適膨大な量を保存可能 データ収集が効率的におこなえる時系列でデータを確認できる
デメリット どこにデータが入っているかさがすのが大変 構築に時間がかかる
どのような企業におすすめか 素早くデータが必要で専門家がいる企業 データを収集しているのに活用していない

上表のとおり、データレイクは構造化されていない生データをそのまま格納していますが、データウェアハウスは加工し見やすい状態に変更しています。

そのためデータレイクでは操作や構築が複雑になり、データサイエンティストが必要不可欠です。一方データウェアハウスはデータが加工され構造化しているので、データサイエンティストでなくとも活用できます。

処理していないデータが必要な機械学習などを利用するのであれば、データレイクがおすすめです。一方、部署ごとに違うシステムを使っていて、統合して管理したいときなどはデータウェアハウスがよいでしょう。

4.AWSの主なデータ分析サービス

AWSでは、データレイクやデータウェアハウスで蓄積・加工されたデータを分析できるサービスが豊富に展開されています。その中でも、主に使われているサービスが「Athena」と「EMR」そして前章で触れた「Redshift」です。

各分析サービスの特徴や違いを把握することで、必要なデータ分析サービスのプランニングがみえてきますので、それぞれ解説していきます。

4-1.Athena

Athenaは、Amazon S3に保管されているデータを直接SQLクエリを使用して、データ分析をするデータウェアハウスです。Amazon S3とそのままやり取りができるサービスのため、抽出や変換を必要としません。

また、記述言語はSQLを使用しているため、SQLの知識があれば使用できるサービスです。

使う用途は、単発のデータ抽出や簡易的な分析に向いており、膨大なデータや複雑なデータ分析には向いていません。

価格は東京と大阪で金額が異なり、実行したSQLのクエリに対して料金が発生します。

2023年2月現在、東京の場合スキャンされたデータ1TBあたり5USDで、大阪は1TBあたり6USDとなっています。だいたいの概算ですが、東京で1GBあたり約0.68円、大阪で1GBあたり約0.816円です。

スキャンされたデータは圧縮されていても問題ありませんので、圧縮してからスキャンすればそれだけ価格も抑えられるでしょう。

4-2.EMR

EMRとは、Amazon Elastic MapReduceの略称で、ビッグデータであっても分散処理してくれるクラウドプラットホームのことです。

EMRは、GoogleのMapReduceを元に作られたと言われています。

プロビジョニングはEMR自身がおこなってくれるので、利用者は分析だけに集中できるのがメリットです。

EMRの流れとしては、分散処理ができるマシンクラスターを作成し、適したアプリケーションを使って実行します。利用用途としてはリアルタイム分析やストリーミング・膨大な量のデータ変換・機械学習などに利用されています。

またEMRの最大のメリットは「低コスト」なことでしょう。最小課金時間は1分で、1秒ごとに課金されるので無駄がありません。一例ですが、10ノードのEMRクラスターを使用した場合、1時間あたり0.015円となります。ノードの数やインスタンスによって異なるため、導入する場合は確認が必須です。

4-3.Redshift

前章でも紹介したRedshiftもEMR同様、膨大なデータを処理できるデータウェアハウスですが、内容は異なります。

Redshiftは、大容量の構造データのみを扱うのに対し、EMRは大容量かつ非構造データでも処理できます。少量のデータだけを処理するのであれば、Athenaが最適でしょう。

同じ分析サービスであっても、分析するデータ量と構造データかそうでないかによって利用するサービスが変わってきますので注意しましょう。

5.AWSのデータ分析サービスとMicrosoft AzureやGoogle Cloudのサービスとの違い

AWSだけでなく、Microsoft AzureやGoogle Cloudでもデータ分析サービスは提供されています。同じデータ分析サービスですが、特徴や価格などの比較を見ていきましょう。

  • 横にスクロールします
  AWS Azure GCP
サービス名 Redshift Azure Synapse Analytics BigQuery
ストレージ 手動 サイズは1つのみ サイズに合わせて自動で移行
仮想ノード管理 一部手動管理 メンテナンスなど手動 完全なサーバーレス
他ツールとの連携 手動 設定が複雑 簡単にできる
オブジェットストレージの特徴 耐久性があり価格設定が分かりやすい 料金が複雑 料金が分かりやすい
その他特徴 日本語サポートあり トップシェア サービスの組み合わせが豊富 Windowsとの相性が良いため大手企業でよく使われているオンプレミスと相性が良いことが多い 機械学習に強い ビッグデータの解析に強い マニュアルが分かりにくい

上表を見てみると、AWSはある程度手動でおこなう点はあるものの、サービスが豊富にあり、組み合わせることで自社に最適なデータ分析が可能なことが分かります。また価格設定も分かりやすくマニュアルも日本語対応していることから、使いやすいサービスといえるでしょう。トップシェアのため、すでに構築している企業が多く、情報が多いというメリットもあります。

Microsoft Azureは、3社の中では料金体系が複雑で、手動でおこなう項目が多いことが分かりますが、専門家が常駐しており常に体制を整えられる状態であれば安心して使えます。またMicrosoft社が提供しているため、企業でよく使われているWindowsとの相性が良いのはメリットでしょう。

最後にGoogle Cloudですが3社のなかで最も自動化が進んでおり、操作がしやすい半面、マニュアルが英語で分かりづらいといったデメリットがあります。

いずれのサービスもそれぞれの特徴があります。自社にあったサービスを活用するためには、特徴と目的を照らし合わせて決定するとよいでしょう。

6.AWSでデータ分析をおこなう前に気を付けておきたいこと

AWSでデータ分析をおこなう前に、気をつけておきたいことを押さえておきましょう。

AWSのデータ分析基盤のサービスを間違えると「計画していた内容と違った」となる可能性もあります。それ以上に一歩間違えると、導入したのに結局使えなかったということになりかねません。

後悔しないためにも、これから解説する3つのポイントをしっかりおさえて導入しましょう。

6-1.高度な専門知識を持った人材が必要不可欠

AWSでデータ分析をおこなう場合、高度な専門知識を持った人材が必要です。

  • どの程度のデータ分析をおこないたいのか
  • おこないたいデータ分析に必要なシステムは何か
  • サービスに見合った知識を持った人材を常駐させているか

上記のように、最適なデータ分析をおこなうためのサービス選定ができる知識ある人材や運営できる人材を確保しましょう。

データ分析とひとことで言っても、システムの規模などによっても大きく異なります。サービス選定したとしても、構築・運用できるほどの知識を持っていないとAWSを活用できないでしょう。

独自のデータベースを移行したり、Amazon Redshiftの使用またはAWS Lake Formationを使用せずにデータレイクの構築などを考えたりしている場合はデータサイエンティストやSQLやデータベースの知識がある担当を確保しておかなければなりません。

6-2.データ分析をする目的の明確化

データ分析をする目的を明確化しましょう。

「経営に活かしたい」などの大枠のみ決め、中身が決まっていないとデータ分析を導入する際に必要なサービスが分かりません。それだけでなく、必要のないデータを集めてしまったり、何を求めておこなっていくのか分からなくなったりします。

データの分析結果を活用して、新商品の開発に役立てるのか顧客減少の理由を探りたいのか、より細かいデータ分析の目的を設定します。目的に応じた仮説をたてて、データ分析で検証していくとよりデータ分析をスピーディかつ明確におこなえるのです。

流れとしては、目的を決め仮説を立ててから、何のデータが必要かを考えます。必要なデータが分かれば、おのずと必要なデータ基盤が分かるでしょう。

もし、企業内だけで決定すると懸念が生じるのであれば、コンサルタントをいれるのもおすすめです。

6-3.適切なデータ処理

すでに自社専用の情報システムを構築し運用している場合、AWSに移行がしっかりできるのか、また必要なデータにアクセスでき分析できるのかを導入前に確認しておきましょう。

実際に導入しようとしたのはよいものの、うまく移行できなかったりアクセスができなくなったら意味がありません。

確実に今までのデータをAWSで適切なデータ処理ができるのか、しっかり把握してからAWSでデータ分析の導入をしましょう。

7.AWSデータ分析サービスの導入事例

AWSデータ分析サービスは日本だけでなく、世界各地ですでに導入・活用されていますが、この章では事例をひとつ紹介します。

今まで治療法がなかった病気の新薬開発をおこなっているモデルナでは、AWSデータ分析サービスが活用されています。

データ分析の目的は、新薬を開発するための膨大なデータの収集・分析をおこない、新薬の実験に利用することでした。より効率的に新薬開発するためには拡張ができるコンピューティングに自動化、企業全体のデータ統合が必須です。

そこで利用されたのが、AWSのデータ分析サービスです。利用したサービスはAmazon S3・EC2・Amazon Redshift・Amazon RDSです。AWSのクラウドサービスに依存した結果、候補薬の臨床実験を始める時間は大幅に短縮し、より効率的にプロジェクトを進められました。

このように膨大なデータであっても、データ分析は全てAWSのクラウドサービスに任せれば、より集中的に業務を遂行できるのです。

8.AWSでのデータ分析基盤構築ならぜひNTT東日本にご相談ください

AWSでのデータ分析基盤構築を導入するか検討されている場合は、NTT東日本にご相談ください。NTT東日本では、AWSでのデータ分析基盤構築を含んだクラウドサービスであるAWSの導入・運用サービスを提供しています。

本サービスは、「AWS」「Microsoft Azure」のクラウドサービスの設計構築・ネットワーク構築・監視保守・運用代行を行い、セキュアなクラウド環境構築やIT業務効率化を可能とするトータルサポートサービスです。

社内に専門部署がない場合、適切なサービスの設計方法に不安があったり、故障発生時の対応に困ったりする可能性があるでしょう。また、AWSを導入するにあたり、自社に合ったサービスの選定やトータルコストの算出にも知識が必要です。NTT東日本ではこれらのお悩みごとに対してしっかりとサポートいたします。

NTT東日本を選ぶメリットとしては以下の3つが挙げられます。

  • 環境設計の準備から導入後までワンストップで支援可能
  • 長期的な運用を見据えてお客さまに合ったサポート内容を提案
  • 迅速かつ正確な環境構築が可能

当サービスをご利用いただくことで、AWSでのデータ分析基盤構築はもちろん、併用することで企業活動をより良くするAWSサービスのご提案もさせていただきます。興味のある方は、ぜひ以下よりお問合せください。

クラウド導入・運用サービスのお問合せはこちら

9.AWSでのデータ分析についてまとめ

AWSでのデータ分析に必要な基盤や、AWSで展開しているサービス・競合との比較・導入前に気をつけるべき点を解説しました。

AWSは豊富なデータ分析サービスを展開しているため、それぞれの目的にあったサービスを選べば、より効率的にデータ分析が可能です。データ分析をより活用するためにも、目的の明確化はもちろん、既存のオンプレミスがあるのであれば、移行ができるのかしっかり確認しましょう。

価格も利用した分だけの従量課金がほとんどですので、ぜひAWSの活用を検討してみてください。

  • 本記事に記載されている会社名、サービス名、商品名は、各社の商標または登録商標です。

AWSでのデータ分析など、クラウド導入に興味のある方は
お気軽に無料のオンライン相談窓口へご連絡ください。

ページ上部へ戻る

無料ダウンロード

自社のクラウド導入に必要な知識、ポイントを
このに総まとめ!

あなたはクラウド化の
何の情報を知りたいですか?

  • そもそも自社は本当にクラウド化すべき?オンプレとクラウドの違いは?
  • 【AWS・Azure・Google Cloud】
    どれが自社に最もマッチするの?
  • 情シス担当者の負荷を減らしてコストを軽減するクラウド化のポイントは?
  • 自社のクラウド導入を実現するまでの具体的な流れ・検討する順番は?

初めての自社クラウド導入、
わからないことが多く困ってしまいますよね。

NTT東日本では
そんなあなたにクラウド導入に必要な情報を

1冊の冊子にまとめました!

クラウド化のポイントを知らずに導入を進めると、以下のような事になってしまうことも・・・

  • システムインフラの維持にかかるトータルコストがあまり変わらない。。
  • 情シス担当者の負担が減らない。。
  • セキュリティ性・速度など、クラウド期待する効果を十分に享受できない。。
理想的なクラウド環境を実現するためにも、
最低限の4つのポイントを
抑えておきたいところです。
  • そもそも”クラウド化”とは?
    その本質的なメリット・デメリット
  • 自社にとって
    最適なクラウド環境構築のポイント
  • コストを抑えるため
    具体的なコツ
  • 既存環境からスムーズにクラウド化
    実現するためのロードマップ

など、この1冊だけで自社のクラウド化のポイントが簡単に理解できます。
またNTT東日本でクラウド化を実現し
問題を解決した事例や、
導入サポートサービスも掲載しているので、
ぜひダウンロードして読んでみてください。

クラウドのわからない・
面倒でお困りのあなたへ

クラウドのご相談できます!
無料オンライン相談窓口

NTT東日本なら貴社のクラウド導入設計から
ネットワーク環境構築・セキュリティ・運用まで
”ワンストップ支援”が可能です!

NTT東日本が選ばれる5つの理由

  • クラウド導入を
    0からワンストップでサポート可能!
  • 全体最適におけるコスト効率・業務効率の改善
    中立的にご提案
  • クラウド環境に問題がないか、
    第3者目線でチェック
    してもらいたい
  • 安心の24時間・365日の対応・保守
  • NTT東日本が保有する豊富なサービスの組み合わせで
    ”課題解決”と”コスト軽減”を両立

特に以下に当てはまる方はお気軽に
ご相談ください。

  • さまざまな種類やクラウド提供事業者があってどれが自社に適切かわからない
  • オンプレミスのままがよいのか、クラウド移行すべきなのか、迷っている
  • オンプレミスとクラウド移行した際のコスト比較を行いたい
  • AWSとAzure、どちらのクラウドが自社に適切かわからない
  • クラウド環境に問題がないか、第3者目線でチェックしてもらいたい
  • クラウド利用中、ネットワークの速度が遅くて業務に支障がでている

クラウドを熟知するプロが、クラウド導入におけるお客さまのLAN 環境や接続ネットワーク、
クラウドサービスまでトータルにお客さまのお悩みや課題の解決をサポートします。

相談無料!プロが中立的にアドバイスいたします

クラウド・AWS・Azureでお困りの方はお気軽にご相談ください。