代表的な3つのデータウェアハウス
「BigQuery」「Redshift」「Synapse」について比較解説
データウェアハウスとは
データウェアハウスとは、組織の意思決定の支援に使用される大規模なビジネスデータの分析システムです。「Data Warehouse」の頭文字をとって「DWH」とも呼ばれ、直訳すると「データの倉庫」の意味を指します。
データ分析は情報の収集・蓄積に始まり、そして分析から可視化へと至る一連のプロセスを「データレイク」「データウェアハウス」「データマート」という3層構造のシステムによって実行します。データウェアハウスは、データ分析基盤の3層構造の中間に位置し、異なる種類のシステムから収集したビジネスデータを保管するリポジトリのことです。
あらゆるデータを未処理のまま保管するデータレイクとは異なり、データウェアハウスはビジネス上の観点にもとづきながら目的を設定し、その目的に見合うよう処理された構造化データを保管します。
以下では、データレイクとデータウェアハウスの違いやメリット・デメリットなど解説しています。
メリット・デメリット、その役割などを解説
代表的なデータウェアハウス
現在、代表的なデータウェアハウスとしてはBigQuery、Redshift、Synapseの3つがあります。以下ではまず、それぞれの概要についてご紹介します。
BigQuery(Google Cloud)
BigQueryは、Google Cloudが提供しているサーバーレスのデータウェアハウスです。環境構築が不要で高速でのビッグデータ分析が可能です。社内向けに開発したクエリ実行サービス「Dremel(ドレメル)」をベースに、社外向けに誰でも利用できるようなサービスとして提供した経緯があります。
BigQueryについては、以下の記事で詳しく解説しています。
特徴や導入メリット、活用事例を解説
Redshift(Amazon Web Services)
Redshiftは、Amazon Web Services(AWS)が提供するデータウェアハウスのサービスです。大量のデータを構造化し、短期間での分析処理が可能です。
機械学習による高度なデータ分析にも対応しています。
Synapse(Microsoft Azure)
SynapseはMicrosoft Azureが提供するデータウェアハウスであり、ビッグデータ解析にも対応した分析プラットフォームです。もともと提供されていた「Azure SQL Data Warehouse」の後継と位置付けられ、データ統合とデータウェアハウス、ビッグデータ分析が1つに統合されている点が特徴です。
各サービスで共通する機能
BigQuery、Redshift、Synapseに共通する機能としては以下の3点があります。
高速なデータ処理
それぞれMPP(Massively Parallel Processing)と呼ばれる、非常に多くの計算を並列で実行する分散コンピューティングアーキテクチャのシステムを採用しています。これにより、ペタバイト規模の極めて大容量なデータ処理が高速で実行可能です。
リッチなバックアップ・セキュリティ機構
それぞれ定期的な自動バックアップ機能に加え、ポイントインタイムリカバリ機能も提供されており、バックアップ保持期間内の特定時間におけるデータの復元が可能です。
また、データの暗号化や詳細なアクセス制御と認証メカニズム、アクセスログの監査機能など豊富なバックアップ・セキュリティ機構が整備されています。
データフォーマット
それぞれのサービスでは、データが列ごとに格納される列指向データモデルを採用しており、それに応じた圧縮アルゴリズムが適用されています。これによりデータ容量が縮小し、ストレージ効率の向上に寄与します。
各サービスの特徴比較
BigQuery、Redshift、Synapseそれぞれの特徴を比較すると以下のようになります。
BigQueryを使うべきケース
BigQueryを使うケースとしては以下の2つが想定されます。
「データ」と親和性の高い部門への導入
BigQueryはサーバーレスであり、チューニングが不要であるなどデータベースに関する専門的な知見がなくても利用可能です。そのため、データを用いた分析が役立つような経営企画部やマーケティング部門、経理・財務部門などへの導入に適しています。
全社的なデータ分析
一般的なアクセス解析サービスのGA4(Google Analytics 4)と連携でき、GA4のデータを表やグラフにしてビジュアル化するなどの可視化が容易です。また、GoogleデータポータルやLooker Studioなどのデータを可視化するツールと簡単に連携することも可能であるため、全社的なデータ分析に向けたハードルが低く、実施しやすいメリットがあります。
BigQueryなどデータウェアハウスの導入についてのご相談はSproutlyへ
Sproutlyでは、システム基盤の初期構築からアプリケーション運用に必要な保守サービスまでのすべてをトータルに運営・管理するSREサービス(月額定額料金)を提供しています。
Googleのサービスパートナーであり、Google Cloud Platform(GCP)活用に向けたコンサルティング・導入・運用サービスなどを展開しているため、BigQueryをはじめとしたデータウェアハウス導入に向けたシステム基盤整備が可能です。
BigQueryを含むGCP導入にご関心のある方は、Sproutlyまでお問い合わせください。