SI事例

【SI】秒間10万件の処理を行うデータ分析基盤をGoogle Cloudで構築

メディア/放送系企業 様
データ分析基盤をGoogle Cloud環境で設計・構築したSIの事例を紹介します。

課題

・外部からリアルタイムで送信されてくるデータ(秒間10万件)のリクエストをリアルタイムでデータ分析基盤にインサートする

 必要がある。

ユースケース

秒間10万件で送信されるデータをPubSubで受付けDataflowでETL処理を行い、最終的にBigQueryでデータマートを実装した。

いくつかの構成パターンを実装し機能性や非機能面、コスト面を評価し、最終的にパターン①を採用。

 

パターン① GKE

GKEでアプリケーションをホストし、外部からのデータを受付、ETL基盤としてpubsubからdataflow、Bigqueryへリアルタイムで連携した。

GKEやDataflowで最適なスケールチューニングを施し無事秒間10万リクエストを処理することに成功した。

 

パターン② CloudRun

アプリケーション基盤を「パターン①」のGKEからCloudRunに切り替えた。

GKEからClouRunにアプリケーションを載せ替えるためいくつか改修が必要になったが、対処した結果、CloudRunでも無事秒間10万リクエストを処理することに成功した。

 

パターン③ GKE + ETLをCloudLoggingに載せ替え

ETL処理をpubsub+Dataflowの構成からCloudLoggingへ切り替えた。

アプリケーションのFluentdでCloudLoggingへの出力フォーマットを構築した。

CloudLoggingはログシンク機能を利用してBigQueryにデータをリアルタイムでインサートすることで、PubSub+Dataflowと同等の結果が得られた。