SI事例
【SI】秒間10万件の処理を行うデータ分析基盤をGoogle Cloudで構築
メディア/放送系企業 様
データ分析基盤をGoogle Cloud環境で設計・構築したSIの事例を紹介します。
課題
・外部からリアルタイムで送信されてくるデータ(秒間10万件)のリクエストをリアルタイムでデータ分析基盤にインサートする
必要がある。
ユースケース
秒間10万件で送信されるデータをPubSubで受付けDataflowでETL処理を行い、最終的にBigQueryでデータマートを実装した。
いくつかの構成パターンを実装し機能性や非機能面、コスト面を評価し、最終的にパターン①を採用。
パターン① GKE
GKEでアプリケーションをホストし、外部からのデータを受付、ETL基盤としてpubsubからdataflow、Bigqueryへリアルタイムで連携した。
GKEやDataflowで最適なスケールチューニングを施し無事秒間10万リクエストを処理することに成功した。
パターン② CloudRun
アプリケーション基盤を「パターン①」のGKEからCloudRunに切り替えた。
GKEからClouRunにアプリケーションを載せ替えるためいくつか改修が必要になったが、対処した結果、CloudRunでも無事秒間10万リクエストを処理することに成功した。
パターン③ GKE + ETLをCloudLoggingに載せ替え
ETL処理をpubsub+Dataflowの構成からCloudLoggingへ切り替えた。
アプリケーションのFluentdでCloudLoggingへの出力フォーマットを構築した。
CloudLoggingはログシンク機能を利用してBigQueryにデータをリアルタイムでインサートすることで、PubSub+Dataflowと同等の結果が得られた。