【Glue】Glueを使い始めて知った単語などまとめ

はじめに

最近、サーバーサイドだけでなくデータ基盤も作る機会がありました。
サービスの成熟度や規模を検討した結果 AWS Glue(以下、Glue) を採用しました。

そこでGlueを名前だけ知っていた筆者が本番で使えるまでになり覚えた単語などをメモします。

前提条件

  • Glueは使ったことがなく名前だけ知っている
  • サーバーサイドエンジニアとして業務をしたことがある

単語一覧

AWS Glueとは

完全マネージド型 ETL (抽出、変換、ロード) サービス

データカタログとは

データストア(抽出元のテーブルなど)から自動的に作成されたメタデータ定義はデータカタログと呼ばれます。さらに、ユーザ自身がら編集することも可能です。

Glueクローラーとは

クローラは指定したデータストアを調べて、データカタログに登録してくれます。定期実行をする事で、スキーマパーティションの定期的な自動更新も可能です。

なお、Glueの機能がわからなかったころ手動でデータカタログを作っていました。
これを実行することにより自動でデータカタログを作成することができます。

Glue Jobとは

ジョブは、AWS Glue で抽出、変換、ロード (ETL) 作業を実行するビジネスロジックで構成されます。
ジョブを開始すると、AWS Glue はソースからデータを抽出し、そのデータを変換してターゲット内にロードするためのスクリプトを実行します。

Python, Scalaで記述することができるようです。
今回、私はPythonでジョブをコーディングしました。

Glue Studioとは

今までGlue Jobは各言語でコーディングをしなければならなかったが、Glue Jobをノーコーディングで作成できるGUIです。
サンプルのインプットデータがあればGUI上で実行して動作確認もできます。

まとめ

EC2, ECS, RDSなどに比べるとかなりとっつきにくいサービスであるため、私も最初かなり戸惑いました。1つずつやっていき理解度を深めていきます。

参考