クラウドETL「AWS Glue」「Azure Data Factory」でデータパイプラインを構築する方法

Amazon Web Services(AWS)の「AWS Glue」とMicrosoftの「Azure Data Factory」は、どちらもETL(データ抽出、変換、読み込み)のクラウドサービス(以下、クラウドETL)だ。企業はこれらクラウドETLを利用して、データパイプライン(さまざまなデータソースからデータを取り込むシステム)を構築できる。

2大クラウドETLのAWS GlueとAzure Data Factoryには、大きな違いが幾つかある。自社のワークロード(アプリケーション)に適切なクラウドETLを選ぶ際は、こうした違いを理解することが重要になる。両者を複数の観点から比較する。

「AWS Glue」とは

AWSのAWS Glueは、データの収集や処理、移動を可能にするデータパイプラインを構築するためのクラウドETLだ。クラウドサービスのため、ユーザー企業は稼働のためのインフラを構築したり、管理したりする必要がない。

データパイプラインを作成するのに必要な機能を、AWS Glueは備えている。ユーザー企業はデータを移動させる際に実行するプロセスを定義するだけで、容易にデータパイプラインを実行できる。

Azure Data Factoryとは

Azure Data Factoryは、Microsoftのクラウドサービス群「Microsoft Azure」のクラウドETLだ。ユーザー企業が定義したデータパイプラインを通じて、データの処理や移動のプロセスを簡略化する。AWS Glueと同様、Azure Data FactoryのインフラはMicrosoft Azureが用意するため、ユーザー企業はデータパイプラインの設計に集中できる。

AWSの「AWS Glue」やMicrosoftの「Azure Data Factory」といったクラウドETLは、データパイプラインの構築を支援する。両者の基本的な利用方法を説明する。

クラウドETLであるAWS GlueとAzure Data Factoryは、共通する前提条件がある。データパイプラインを構築する際に必要な要素は以下になる。

  • データソース
    • データを生成する場所を指す。具体的にはデータベース管理システム(DBMS)やAWSの「Amazon Simple Storage Service」(Amazon S3)、Microsoftの「Azure Blob Storage」などのオブジェクトストレージサービスといったシステムが当てはまる。AWS Glueの場合はAWSサービスが、Azure Data Factoryの場合はMicrosoftのクラウドサービス群「Microsoft Azure」のサービスが最も簡単に連携できる。両者共に、外部のデータソースも連携可能だ。
  • データターゲット
    • データターゲットは、データパイプラインで処理された後のデータを配置する場所を指す。オブジェクトストレージサービスまたはDBMSが当てはまる。

AWS GlueとAzure Data FactoryのどちらのクラウドETLでデータパイプラインを構築するとしても、クラウドETLがデータソースからデータを収集する方法を定義する必要がある。収集したデータの処理が必要な場合は、その処理方法も定義する。

データパイプラインは、外部システムからデータを取得してデータソースに足りない情報を補うことができる。データ処理の過程で、データソースから収集した重複データを削除することも可能だ。処理完了後にデータを転送するデータターゲットも指定する必要がある。

AWS GlueとAzure Data Factoryは、各クラウドサービスの管理画面またはコマンドラインインタフェース(CLI)ツールで管理できる。

Original Post>