【Spark】ローカルでSparkをインストールしてみる
はじめに
半年ぐらいの業務でAWS Glueを使ったETLをやっていました。
しかし、Sparkの知識が足りず「Pysparkの関数ってどうやって使うの?」ということが多々あったため
Pysparkをローカルで動作できる環境を作ってみました。
環境
- macOS Monterey
前提条件
- Homebrewのコマンドが実行できること
やりかた
brew install openjdk@11 brew install apache-spark brew install python
以下のように起動すれば確認できるようになります。
Python 3.10.6 (main, Aug 11 2022, 13:49:25) [Clang 13.1.6 (clang-1316.0.21.2.5)] on darwin Type "help", "copyright", "credits" or "license" for more information. Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 22/09/06 08:57:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 3.3.0 /_/ Using Python version 3.10.6 (main, Aug 11 2022 13:49:25) Spark context Web UI available at http://192.168.1.62:4040 Spark context available as 'sc' (master = local[*], app id = local-1662422250363). SparkSession available as 'spark'. >>>
まとめ
これでPysparkを使って関数確認できるようになりました。