はじめに
半年ぐらいの業務でAWS Glueを使ったETLをやっていました。
しかし、Sparkの知識が足りず「Pysparkの関数ってどうやって使うの?」ということが多々あったため
Pysparkをローカルで動作できる環境を作ってみました。
環境
- macOS Monterey
前提条件
- Homebrewのコマンドが実行できること
やりかた
brew install openjdk@11 brew install apache-spark brew install python
以下のように起動すれば確認できるようになります。
Python 3.10.6 (main, Aug 11 2022, 13:49:25) [Clang 13.1.6 (clang-1316.0.21.2.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/09/06 08:57:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 3.3.0
/_/
Using Python version 3.10.6 (main, Aug 11 2022 13:49:25)
Spark context Web UI available at http://192.168.1.62:4040
Spark context available as 'sc' (master = local[*], app id = local-1662422250363).
SparkSession available as 'spark'.
>>>
まとめ
これでPysparkを使って関数確認できるようになりました。