2024.02.21 ｜ Writer：NTT東日本アベ

【入門】Amazon Redshiftとは？特徴・使い方など基礎をわかりやすく解説

企業が蓄積するさまざまなデータを、経営戦略や業務改善などに活用したいと考える企業は増えつつあります。しかし、膨大なデータの収集、分析を行うデータ活用基盤の構築は、容易にできるものではありません。専門知識を持った人材が必要となり、多大なコストや時間を要するケースもあるため、積極的なデータ活用になかなか踏み切れないという方も多いのではないでしょうか。

そこで近年注目されているのが、AWSが提供するデータ集計・分析サービス「Amazon Redshift」です。今回は利用者が増えつつあるAmazon Redshiftの特徴やメリット、使い方、料金などについて解説します。

【入門編】「クラウド導入を成功させるためのお役立ちマニュアル」はこちらからダウンロード！

1.Amazon Redshiftとは？: 1-1.Amazon AuroraやAmazon Athena、Amazon RDSとの違い
2.Amazon Redshiftの特徴とメリット: 2-1.MPP（超並列処理）によるデータ分析処理の高速化; 2-2.列指向ストレージによるディスクアクセスの効率化; 2-3.列の特性に応じた効率的なデータ圧縮; 2-4.データ分散化や結果のキャッシュによる効率向上; 2-5.さまざまなAWSサービスとの連携
3.Amazon Redshiftの使い方: 3-1.クラスターの作成; 3-2.クラスターへの接続
4.Amazon Redshiftの料金
5.AWSの導入・運用ならぜひNTT東日本にご相談ください
Amazon Redshiftについてまとめ

1.Amazon Redshiftとは？

Amazon Redshiftは、AWSが提供するペタバイト規模のデータウェアハウス／データレイクサービスです。高速かつスケーラブルで、費用対効果が高いのが特徴で、あらゆるデータを構造化して蓄積し、データ分析処理をスムーズに実行できます。

データ暗号化やネットワーク隔離、アクセス制御等、強力な情報セキュリティを有している点や、フルマネージド型サービスでハードウェア設定やソフトウェアインストール等の手間が不要な点などから、多くのユーザーに利用されています。

AWSでのデータ分析についてより詳しく知りたい方は以下の記事をご覧ください。

関連記事：AWSでのデータ分析に必要な基盤とは？メリットや分析サービスも解説

1-1.Amazon AuroraやAmazon Athena、Amazon RDSとの違い

AWSでは、Amazon Redshiftの他にもデータ分析に役立つさまざまなサービスが提供されています。代表的なサービスとして知られているのは以下の3サービスです。

Amazon Athena
Amazon RDS（Relational Database Service）
Amazon Aurora

それぞれのサービスの概要と特徴は以下の表の通りです。

横にスクロールします

サービス名称	サービス概要	特徴
Amazon Athena	データ分析サービス	Amazon S3に保存、蓄積されたデータを直接分析できる標準SQLの使用が可能サーバーレス
Amazon RDS	リレーショナルデータベースの構築・運用支援サービス	一般的によく利用されているデータベースエンジン（Oracle Database、PostgreSQLなど）がそのまま利用可能既存データベースのクラウド移行が簡単に行える
Amazon Aurora	クラウドのために再設計されたデータベースエンジン	Amazon RDSのサービスの1つオンライントランザクション処理向けに設計 My SQL、PostgreSQLのいずれかと互換性のあるデータベースを作成

Amazon AthenaとAmazon Redshiftの主な相違点として挙げられるのは、リソースの割り当て方法です。Amazon Athenはリソースの割り当てを自動で行います。そのため、ピーク時など多くの負荷がかかる場面では、クエリの実行速度が遅くなる場合があります。一方、Amazon Redshiftは、リソースの割り当てを手動でコントロールできるため、Amazon Athenaと比較して、安定性や高速性に優れていると言えます。

また、Amazon RDS、Amazon AuroraとAmazon Redshiftでは、得意とする処理や使途が大きく異なります。Amazon RDS、Amazon Auroraは、データ更新を得意とし、主にオンライントランザクション処理に利用されます。一方、Amazon Redshiftは、高度なデータ分析を得意とし、主に膨大なデータの処理に利用されています。

【入門編】「クラウド導入を成功させるためのお役立ちマニュアル」はこちらからダウンロード！

それぞれのサービスの概要や特徴についてより詳しく知りたい方は、以下の記事をご覧ください。

Amazon Athenaによるデータ分析入門｜メリットや料金体系も解説

Amazon RDSとは？～データベースの基礎からAmazon RDSのメリットまで徹底解説～

Amazon Auroraとは？特徴やAmazon RDSとの違い

2.Amazon Redshiftの特徴とメリット

Amazon Redshiftの主な特徴、メリットには以下の点が挙げられます。

MPP（超並列処理）によるデータ分析処理の高速化
列指向ストレージによるディスクアクセスの効率化
列の特性に応じた効率的なデータ圧縮
データ分散化や結果のキャッシュによる効率向上

それぞれについて詳しく解説します。

2-1.MPP（超並列処理）によるデータ分析処理の高速化

Amazon Redshiftは「MPP」（超並列処理アーキテクチャ）を採用することで、高速なデータ処理を実現しています。MPPとは、複数のノードでSQLのクエリ（データ操作の指示）を分散処理できる仕組みのことです。

Amazon Redshiftは主に、クエリを受け付ける「リーダーノード」と、クエリを処理する複数の「コンピューティングノード」で構成されています。リーダーノードはクエリを受け取ると、最適化してからコンピュートノードへ分散させます。コンピュートノードは、データ保存場所として機能し、それぞれがクエリの一部を同時に処理していきます。このように、1つのクエリを複数のコンピュートノードで並列的に処理することで、大量のデータの迅速な分析が可能となっています。

2-2.列指向ストレージによるディスクアクセスの効率化

Amazon Redshiftでは、「列指向ストレージ」というデータ格納方式が採用されています。

PostgreSQLやMySQLをはじめとした一般的なリレーショナルデータベースで多く採用されている「行指向ストレージ」の場合、データは行ごとに格納され、データの更新、追加、検索などの処理も行単位で行われます。一方、Amazon Redshiftで採用されている列指向ストレージでは、データを列ごとに格納し、データの処理も列ごとにまとめて行います。

列指向ストレージでは、処理を実行する際に必要な列のみを読み取ることができます。行指向ストレージと比較するとディスクの読み書き頻度が少なく、集計処理や分析処理を高速で実施できます。

2-3.列の特性に応じた効率的なデータ圧縮

Amazon Redshiftでは、データ保存時に列を圧縮し、データサイズを小さくすることが可能です。データ圧縮を行うことで、ディスクI/Oが減り処理の高速化が図れます。また、ストレージスペースの節約ができるため、コスト低減も期待できます。

圧縮のアルゴリズムは複数あり、データの種類や使用パターンによって最適な方法が異なります。適切な圧縮方法の選択に迷う場合は、Amazon Redshiftの「自動テーブル最適化」機能を利用すれば、データ圧縮の設定を自動化することも可能です。

2-4.データ分散化や結果のキャッシュによる効率向上

Amazon Redshiftでは、受け取ったクエリの分散スタイルを自由に選択できます。設定可能な分散スタイルは以下の4つです。なお、分散スタイルを選択しない場合は、デフォルトのAUTO分散が適用されます。

KEY分散：設定したキーに基づいてノード上に分散
ALL分散：すべてのデータを全ノードに分散
EVEN分散：データをノードへ均等に分散
AUTO分散：データ量に基づき、適切な分散スタイルを自動で割り当て

処理内容やデータ容量に応じて、適切な分散スタイルを選択することで、データ分析の効率化が実現できます。

2-5.さまざまなAWSサービスとの連携

Amazon Redshiftには、AWSが提供するさまざまなサービスとの連携機能が備えられています。ここでは、代表的な２つの機能「フェデレーテッドクエリ」と「Redshift Spectrum」について解説します。

フェデレーテッドクエリ

Amazon RDS for PostgreSQL、Amazon RDS for MySQL、Amazon Auroraなどの、OLTP向けの外部データベースサービスに、Amazon Redshiftから直接クエリを実行できる機能です。

フェデレーテッドクエリ利用すれば、外部データベースにあるデータをAmazon Redshiftにロードすることなく、クエリの発行が可能です。

Redshift Spectrum

Amazon S3に保存されているデータに対して直接クエリを実行できる機能です。

Redshift Spectrumを利用すれば、Amazon S3にあるデータをAmazon Redshiftにロードすることなく、大容量のデータを効率的に分析できます。

Redshift本体とは独立したプロセスで処理が実行されるため、Redshiftに負荷をかけることなくデータ分析を行えるのもRedshift Spectrumの大きな特徴と言えるでしょう。

【入門編】「クラウド導入を成功させるためのお役立ちマニュアル」はこちらからダウンロード！

3.Amazon Redshiftの使い方

Amazon Redshiftの使い方について解説します。今回は、クラスターの作成方法と、作成したクラスターへの接続方法を紹介します。

3-1.クラスターの作成

クラスターは、Amazon Redshiftの管理単位であり、リーダーノード、コンピュートノード、Redshift マネージドストレージ（RMS）で構成されています。クラスターの作成は以下の手順で行います。

【クラスター作成手順】

1.Amazon Redshift コンソールへアクセスし、クラスター作成を押下

2.ノードの種類とノード数を設定：
利用するノードの種類（DC2、DS2、RA3）と必要なコンピュートノードの数量を設定します。性能や必要なコストは、ノードの種類や数量によって異なります。そのため、スペックを調整することでスモールスタートも実現可能です。

3.データベース情報の設定：
データベース名（任意）、データベースのポート番号（任意）、ユーザー名、パスワードを設定します。

4.IAMロールの設定：
作成したクラスターからRedshift以外のAWSサービスへアクセスしたい場合はIAMロールの設定を行います。

5.必要に応じて「追加設定」を実施：
ネットワークやバックアップ、情報セキュリティ等のカスタマイズを行う場合は、追加設定画面から必要な設定を行います。

6.全ての設定が完了したら「クラスターを作成」ボタンを押下

7.状態が「Available」になっていればクラスターの準備完了

3-2.クラスターへの接続

Redshiftコンソールからクエリを実行する「クエリエディタ」を使用して作成したクラスターへ接続します。接続時は、クラスター作成時に設定したユーザー名、パスワードの入力が必要です。

クラスターへの接続確認後、SQLを実行し、動作確認を行います。

【入門編】「クラウド導入を成功させるためのお役立ちマニュアル」はこちらからダウンロード！

4.Amazon Redshiftの料金

AWSでは、利用した容量に応じて料金が発生する従量課金制（オンデマンド方式）が採用されています。

Amazon Redshiftの場合は、コンピューティングノードの利用時間と、ストレージの利用容量に応じて料金が変動します。ノードタイプでRA3 インスタンスを選択する場合は、Redshift マネージドストレージ（RMS）の利用容量も課金対象です。

Amazon Redshiftを1年以上利用する予定がある場合は、リザーブドインスタンスの適用がおすすめです。リザーブドインスタンスは、一定期間（1年または3年）の継続利用を約束することで、利用料金の割引が受けられるサービスです。利用期間や支払い方法（前払いなし、一部前払い、全額前払い）、リージョンによって異なりますが、従量課金制と比較して、20％から最大70％程度のコストダウンが見込めます。

なお、今回紹介した料金情報は2024年1月現在のものです。より詳細な料金についてはAWSの公式サイトをご確認ください。

5.AWSの導入・運用ならぜひNTT東日本にご相談ください

Amazon Redshiftをはじめ、AWSでは企業のパフォーマンス向上に役立つ200種類以上のサービスが提供されています。さまざまなサービスがあるため、自社にどのサービスが適しているかわからないという方もいらっしゃるかもしれません。

また、専門知識のある人材がいない等の理由から、AWSの導入、運用に不安を感じているという方も多いでしょう。

NTT東日本では、設計から導入、運用、監視、保守までワンストップで支援するサービスを提供しています。AWSの認定を受ける有資格者が多数在籍しており、導入目的やコスト、希望要件に合わせた最適な提案、支援を行います。

AWSのサービスに興味がある、他のクラウドサービスとAWSの比較がしたいなど、クラウドサービスの導入、運用を検討している場合は、ぜひ一度、NTT東日本へお問い合わせください。

Amazon Redshiftについてまとめ

Amazon Redshiftは、AWSが提供するデータウェアハウス／データレイクサービスです。MPP（超並列処理アーキテクチャ）や列指向ストレージ、データ圧縮など、データ分析の高速化を実現する機能を備え、膨大なデータでもスムーズに分析できるのが魅力です。

Amazon Redshiftを効果的に運用するためには、Amazon Redshiftの特性や機能をしっかりと理解し、自社のデータ容量や内容にあった適切な設定や運用を行うことが重要です。

Amazon Redshiftの導入を検討しているが、専門知識を持った人材がいない、自社内で導入から運用まで手がけるには不安があるという方はぜひ、NTT東日本へご相談ください。NTT東日本では、Amazon RedshiftをはじめとしたAWSの導入・運用をトータルで支援するサービスを行っています。

【入門編】「クラウド導入を成功させるためのお役立ちマニュアル」はこちらからダウンロード！