OS X에서 Homebrew로 Spark, Zeppelin 설치하기

​ ​

Apache Spark is a fast and general engine for large-scale data processing. Zeppelin, a web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more.

공식 문서에 나와있는 소개 글처럼 Spark는 대용량 데이터 처리를 위한 범용 엔진입니다. 얼마 전까지는 범용적 목적의 분산 고성능 클러스터링 플랫폼 이라고 설명했는데 최근에 쉽게 다가가기 위해 바꾼듯 합니다.

그리고 Zeppelin은 데이터 분석을 위한 웹 기반의 노트북입니다. Zeppelin은 작년 말부터 Apache-Top Level project로 승격하면서 인기가 높아지고 있습니다. Zeppelin이 Jupyter Notebook과 다른 점은 빅데이터 처리를 위해 Spark 등 다양한 아파치 프로젝트를 지원하고, Javascript 기반의 데이터 시각화가 내장되어 있어 편리합니다.

​ ​

Spark Install

Spark는 Scala로 구현되어 있지만 SDK를 통해 Java, Python API 또한 지원합니다. 그리고 빅데이터 플랫폼으로 Hadoop, AWS S3, Cassandra 등 다양한 저장소를 지원합니다. 만약 Hadoop이 필요없다면 홈페이지에서 Hadoop이 제외된 바이너리 파일로 설치하시면 됩니다. 여기에서는 간단하게 OS X의 Homebrew를 통해 설치하도록 하겠습니다.

$ brew install scala
$ export SCALA_HOME=/usr/local/bin/scala
$ export PATH=$PATH:$SCALA_HOME/bin

먼저 스칼라를 설치하고 환경변수를 저장합니다.

$ brew install apache-spark
$ spark-shell

그리고 Spark을 설치한 다음, spark-shell 명령을 통해 실행시키면 됩니다.

spark-shell

http://172.30.105.117:4040 주소로 접속하면 Spark UI를 확인할 수 있습니다.

spark-ui

​ ​

Zeppelin Install

Zeppelin은 GitHub 저장소를 clone하여 설치하는 방법과 홈페이지에서 다운받는 방법이 있습니다. 여기에서는 위와 마찬가지로 Homebrew를 통해 설치해보려 합니다.

$ brew install apache-zeppelin
$ /usr/local/Cellar/apache-zeppelin/0.7.0/bin/zeppelin-daemon.sh start
$ /usr/local/Cellar/apache-zeppelin/0.7.0/bin/zeppelin-daemon.sh stop

brew 명령어로 apache-zeppelin을 설치하고 스크립트를 실행하면 localhost:8080 포트에서 Zeppelin을 사용할 수 있게 됩니다. 명령어가 너무 길다보니 ~/.zshrc에 등록해서 사용하면 좀 편리합니다.

$ vi ~/.zshrc
$ alias zeppelin-start = "/usr/.../bin/zeppelin-daemon.sh start"
$ alias zeppelin-stop = "/usr/.../bin/zeppelin-daemon.sh stop"
$ source ~/.zshrc

위와 같이 alias로 등록해주면 앞으로 zeppelin-start 명령어를 통해 실행할 수 있게 됩니다. 자세한 환경설정은 Zeppelin 홈페이지에서 확인하실 수 있습니다.

​ ​