【Spark】ローカルでSparkをインストールしてみる

はじめに

半年ぐらいの業務でAWS Glueを使ったETLをやっていました。
しかし、Sparkの知識が足りず「Pysparkの関数ってどうやって使うの?」ということが多々あったため
Pysparkをローカルで動作できる環境を作ってみました。

環境

前提条件

  • Homebrewのコマンドが実行できること

やりかた

brew install openjdk@11
brew install apache-spark
brew install python

以下のように起動すれば確認できるようになります。

Python 3.10.6 (main, Aug 11 2022, 13:49:25) [Clang 13.1.6 (clang-1316.0.21.2.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/09/06 08:57:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.3.0
      /_/

Using Python version 3.10.6 (main, Aug 11 2022 13:49:25)
Spark context Web UI available at http://192.168.1.62:4040
Spark context available as 'sc' (master = local[*], app id = local-1662422250363).
SparkSession available as 'spark'.
>>>

まとめ

これでPysparkを使って関数確認できるようになりました。

参考

sparkbyexamples.com