ビッグデータ解析のためのAWSサービス


データ分析、特に大規模なデータセットを扱う場合、検討すべきAWSのサービスが2つあります。AWS RedshiftAWS Athenaです。では、それぞれについて詳しく見ていきましょう。

AWS Redshift:


AWS Redshiftは、Amazonのパブリッククラウドが提供する、PostgreSQLをベースとしたクラウドベースのデータウェアハウスおよび分析サービスです。SQLベースのビジネスインテリジェンスツールと連携するように設計された列指向のデータベースで、ユーザーにリアルタイムでデータを提供する。

また、AWS Redshiftはフルマネージドのペタバイト規模のソリューションであり、さまざまなユースケースに対応することができる。Redshiftは、ペタバイト級の半構造化・構造化データに対して高性能なクエリを提供し、非常に高いコスト効率でこれを実現するため、最も一般的なものの1つがビジネス・インテリジェンスです。

分析


さらに興味深いことに、AWS Redshiftでは運用分析が可能で、例えばS3から大量のデータ(ログなど)を取り出し、リアルタイムに運用状況を把握することができます。また、独自の機械学習モデルを実行したり、SageMakerのような他のAWSサービスと統合したりと、Redshiftを予測分析に利用することも可能です。

Redshiftは、複数のデータソース(構造化データ、半構造化データ、非構造化データ)を組み合わせることも可能です。

フルマネージド、高速、親しみやすさ


また、Redshiftがフルマネージドサービスであることは、メンテナンスに必要なオーバーヘッドがほとんどないことを意味します。RedshiftのクラスタはAWSに任せて、あなたはデータに集中することができます。より多くのストレージ容量が必要な場合は、Redshiftを必要なだけ拡張することができます。

AWS Redshiftは高速で、データの暗号化を提供し、さらにPostgreSQLをベースにしているため、すべてのSQLクエリをサポートし、親しみやすさを提供します。

価格設定


Redshiftでは、オンデマンドインスタンス価格とリザーブドインスタンス価格を選択することができます。オンデマンド価格は、時間単位で支払うことができ(要件に応じたインスタンスタイプに基づく)、事前のコミットメントがないため、非常に柔軟性があります。

AWS Athena:


AWS Athenaは、AWS Redshiftと比較して、データウェアハウスではなく、インタラクティブなクエリサービスであるため、異なる動作をします。これまでS3バケットに保存されていたデータを簡単に分析できるほか、サーバーレス製品であるため、管理するインフラや考えるべきことがありません。また、Athenaはデータを選択し、使用するスキーマを定義し、SQLを使用してクエリを開始するだけなので、非常に簡単に使用することができます。

シンプルなクエリで高速な分析


最初からAthenaを使うことで、いくつかの目に見えるメリットがあります。例えば、データや準備されているかどうかを考える必要がなく、単にクエリを開始するだけで可能です。また、Athenaは非常に高速で、時には数秒以内に結果が返されることもあります。

Athenaは、アドホック分析、ある種のストリーミング分析、データレイク分析など、さまざまな種類のデータ分析に使用されています。しかし、AWS Redshiftが複数のソースから来る複雑なクエリを念頭に置いて設計されているのに対し、Athenaは単一のデータソースで実行する単純なクエリに多く使用されています。

セキュリティ


AWS AthenaはS3バケットからデータを取得するため、セキュリティについても考えなければならない。幸いなことに、Athenaは静止時の暗号化(サーバーサイドの暗号化、クライアントサイドの暗号化、KMSの暗号化)と転送時の暗号化(S3とAthena間の転送にTLSレベルの暗号化が使用されており、KMSはAthenaクエリー結果から各種データセットを暗号化してサポート)の両方を提供します。

制限事項


AWS Athenaに関しては、いくつかの制限がある。例えば、1つのクエリにしか対応できず、各アカウントで5つのクエリを同時に実行することができません。さらに、Athenaは利用可能なすべての地域にわたるクエリをサポートしていないため、利用を開始する前にデータの場所を確認しておく必要があります。

また、AthenaはAWS Glacierに保存されているオブジェクトに対するデータクエリをまだサポートしていません。制限事項の完全なリストについては、AWSのドキュメントページを参照してください。

価格


AWS Athenaは、実行するクエリによってスキャンされたデータに対してのみ価格が設定されています。これは、コスト戦略を立てる必要がないため、大きな利点となります。

しかし、データの圧縮、パーティショニング、カラムナー形式への変換を行うことで、Athenaクエリの大幅なコスト削減だけでなく、パフォーマンスの向上も達成できることに留意してください。

N2WS Backup & Recovery


N2WS Backup & Recoveryは、データバックアップのニーズを満たすクラウドネイティブの製品です。Ver4.0リリースではMicrosoft Azure Cloudをサポートするなど、常に進化を続けています。

N2WS Backup & Recoveryは、RedShiftのバックアップに使用することができますので、事業継続性を確保するための高品質な製品をお探しの場合は、是非お試しください。

AWSでビッグデータ分析を追跡する


AWS RedshiftとAWS Athenaは、異なる角度からデータ分析にアプローチしています。Redshiftは主にデータウェアハウスサービスであり、ビジネスニーズによってはメリットにも不必要なオーバーヘッドにもなり得ます。

●Athenaはデータ分析用に設計されており、データはすでにS3バケットに配置されているため、データの準備やストレージの追加コストは必要ありません。
●AWS Redshiftは、パフォーマンスに関しては全体的に速く、より複雑なクエリ機能を提供しますが、その追加のスピードは、様々なインスタンスを実行する(そしてその代償として支払われる)ことを伴います。

これらのことは、ユーザにとって最適なソリューションを見つけようとするとき、考慮すべき複数の要因があることを意味します。クエリーの性能も重要ですが、価格も考慮する必要があります。さらに重要なのは、すでにRedshiftを使用しているか(あるいはデータウェアハウスのニーズがあるか)どうかで、選択が決まることです。

 

関連するトピックス:

ビッグデータ解析のためのAWSサービス への1件のフィードバック

  1. climb のコメント:

    Amazon Redshiftに対してOracle、AS/400、SQL Server、MySQLなどからデータをリアルタイムにレプリケーション[Syniti ta Replication (旧DBMoto)]
    https://www.climb.co.jp/blog_dbmoto/archives/1707

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください