データ分析、特に大規模なデータセットを扱う場合、検討すべきAWSのサービスが2つあります。AWS RedshiftとAWS Athenaです。では、それぞれについて詳しく見ていきましょう。
Contents
AWS Redshift:
AWS Redshiftは、Amazonのパブリッククラウドが提供する、PostgreSQLをベースとしたクラウドベースのデータウェアハウスおよび分析サービスです。SQLベースのビジネスインテリジェンスツールと連携するように設計された列指向のデータベースで、ユーザーにリアルタイムでデータを提供する。
また、AWS Redshiftはフルマネージドのペタバイト規模のソリューションであり、さまざまなユースケースに対応することができる。Redshiftは、ペタバイト級の半構造化・構造化データに対して高性能なクエリを提供し、非常に高いコスト効率でこれを実現するため、最も一般的なものの1つがビジネス・インテリジェンスです。
分析
さらに興味深いことに、AWS Redshiftでは運用分析が可能で、例えばS3から大量のデータ(ログなど)を取り出し、リアルタイムに運用状況を把握することができます。また、独自の機械学習モデルを実行したり、SageMakerのような他のAWSサービスと統合したりと、Redshiftを予測分析に利用することも可能です。
Redshiftは、複数のデータソース(構造化データ、半構造化データ、非構造化データ)を組み合わせることも可能です。
フルマネージド、高速、親しみやすさ
また、Redshiftがフルマネージドサービスであることは、メンテナンスに必要なオーバーヘッドがほとんどないことを意味します。RedshiftのクラスタはAWSに任せて、あなたはデータに集中することができます。より多くのストレージ容量が必要な場合は、Redshiftを必要なだけ拡張することができます。
AWS Redshiftは高速で、データの暗号化を提供し、さらにPostgreSQLをベースにしているため、すべてのSQLクエリをサポートし、親しみやすさを提供します。
価格設定
Redshiftでは、オンデマンドインスタンス価格とリザーブドインスタンス価格を選択することができます。オンデマンド価格は、時間単位で支払うことができ(要件に応じたインスタンスタイプに基づく)、事前のコミットメントがないため、非常に柔軟性があります。
AWS Athena:
AWS Athenaは、AWS Redshiftと比較して、データウェアハウスではなく、インタラクティブなクエリサービスであるため、異なる動作をします。これまでS3バケットに保存されていたデータを簡単に分析できるほか、サーバーレス製品であるため、管理するインフラや考えるべきことがありません。また、Athenaはデータを選択し、使用するスキーマを定義し、SQLを使用してクエリを開始するだけなので、非常に簡単に使用することができます。
シンプルなクエリで高速な分析
最初からAthenaを使うことで、いくつかの目に見えるメリットがあります。例えば、データや準備されているかどうかを考える必要がなく、単にクエリを開始するだけで可能です。また、Athenaは非常に高速で、時には数秒以内に結果が返されることもあります。
Athenaは、アドホック分析、ある種のストリーミング分析、データレイク分析など、さまざまな種類のデータ分析に使用されています。しかし、AWS Redshiftが複数のソースから来る複雑なクエリを念頭に置いて設計されているのに対し、Athenaは単一のデータソースで実行する単純なクエリに多く使用されています。
セキュリティ
AWS AthenaはS3バケットからデータを取得するため、セキュリティについても考えなければならない。幸いなことに、Athenaは静止時の暗号化(サーバーサイドの暗号化、クライアントサイドの暗号化、KMSの暗号化)と転送時の暗号化(S3とAthena間の転送にTLSレベルの暗号化が使用されており、KMSはAthenaクエリー結果から各種データセットを暗号化してサポート)の両方を提供します。
制限事項
AWS Athenaに関しては、いくつかの制限がある。例えば、1つのクエリにしか対応できず、各アカウントで5つのクエリを同時に実行することができません。さらに、Athenaは利用可能なすべての地域にわたるクエリをサポートしていないため、利用を開始する前にデータの場所を確認しておく必要があります。
また、AthenaはAWS Glacierに保存されているオブジェクトに対するデータクエリをまだサポートしていません。制限事項の完全なリストについては、AWSのドキュメントページを参照してください。
価格
AWS Athenaは、実行するクエリによってスキャンされたデータに対してのみ価格が設定されています。これは、コスト戦略を立てる必要がないため、大きな利点となります。
しかし、データの圧縮、パーティショニング、カラムナー形式への変換を行うことで、Athenaクエリの大幅なコスト削減だけでなく、パフォーマンスの向上も達成できることに留意してください。
N2WS Backup & Recovery
N2WS Backup & Recoveryは、データバックアップのニーズを満たすクラウドネイティブの製品です。Ver4.0リリースではMicrosoft Azure Cloudをサポートするなど、常に進化を続けています。
N2WS Backup & Recoveryは、RedShiftのバックアップに使用することができますので、事業継続性を確保するための高品質な製品をお探しの場合は、是非お試しください。
AWSでビッグデータ分析を追跡する
AWS RedshiftとAWS Athenaは、異なる角度からデータ分析にアプローチしています。Redshiftは主にデータウェアハウスサービスであり、ビジネスニーズによってはメリットにも不必要なオーバーヘッドにもなり得ます。
●Athenaはデータ分析用に設計されており、データはすでにS3バケットに配置されているため、データの準備やストレージの追加コストは必要ありません。
●AWS Redshiftは、パフォーマンスに関しては全体的に速く、より複雑なクエリ機能を提供しますが、その追加のスピードは、様々なインスタンスを実行する(そしてその代償として支払われる)ことを伴います。
これらのことは、ユーザにとって最適なソリューションを見つけようとするとき、考慮すべき複数の要因があることを意味します。クエリーの性能も重要ですが、価格も考慮する必要があります。さらに重要なのは、すでにRedshiftを使用しているか(あるいはデータウェアハウスのニーズがあるか)どうかで、選択が決まることです。
関連するトピックス:
- EspressReport ES Cloud からAmazon Redshiftに接続しビッグデータを活用、そして自社Webへチャート/レポート/ダッシュボードで可視化
- EspressReportでのレポートデザイン環境【Java対応レポート・帳票ツールEspressReport】
- EspressDashboard for Azure Synapse Analytics
- フォーミュラビルダ(Formula Builder)【Javaチャート・グラフ作成ツールEspressChart】
- EspressReport ESのトレーニング資料をアップロードしました。
- ETLツール不要のデータ抽出・デザインと多様なデータ形式のサポート【Javaグラフ作成ツールEspressChart】
- データマイニングWebアプリケーションの実現:R言語 PL/R EspressChartの融合
- データベースの情報から株価ダッシュボード作成①ーDBの登録とデータ取得ー
- アドホッククエリと分析機能【エンタープライズ型チャート・レポートツールEspressReportES】
- 大規模レポートでのメモリー管理方法【Java対応レポート・帳票ツールEspressReport】
Amazon Redshiftに対してOracle、AS/400、SQL Server、MySQLなどからデータをリアルタイムにレプリケーション[Syniti ta Replication (旧DBMoto)]
https://www.climb.co.jp/blog_dbmoto/archives/1707