스파크
아파치 스파크는 하둡 맵리듀스의 단점을 보완하고자 개발된 플랫폼 입니다. 메모리 베이스로 데이터를 처리하기 때문에 파일기반인 하둡보다 빠르고, DAG를 이용한 데이터의 흐름을 먼저 계산하기 때문에 복잡한 계산을 할 때 역시 하둡의 맵리듀스보다 빠른 경우가 많습니다.
환경설정
저는 VirtualBox에 linux OS (CentOS 7)를 별도로 깔아 사용하였습니다.
또한 Python역시 기존 OS에 설치되어있는 3.6버전을 사용하였습니다.
자바 설치
스파크는 JVM기반인 Scala로 만들어져 있습니다.
따라서 스파크에서 무언가를 하려면 Java가 설치되어있어야 합니다.
자바는 다음 링크에서 다운받아 설치해주시면 됩니다. (링크는 java 8버전 입니다.)
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
사용자 생성
VM으로 시작하셨다면 새로운 사용자를 만들어야 합니다.
저는 spark라는 유저를 만들고 비밀번호를 설정해 주었습니다.
스파크 설치
먼저 아래의 링크에서 스파크를 다운로드 받습니다.
http://spark.apache.org/downloads
링크에 가시면 스파크의 버전과 하둡의 버전을 선택하는 부분이 있습니다.
저는 다음과 같이 설정 하고 다운로드를 진행했습니다.
3번의 Download Spark를 클릭하시면 새로운 페이지로 넘어갑니다.
그 뒤 나오는 링크들 중 아무곳에서 다운 받으시면 됩니다.
다운로드가 완료되면 파일을 홈 디렉토리에 옮겨주고, 압축을 풀어줍니다.
# tar -xf spark-2.3.3-bin-hadoop2.7.tgz
그리고 심볼릭링크를 생성해주겠습니다.
# ln -s spark-2.3.3-bin-hadoop2.7 spark
스파크 실행
Python 설치
저는 Anaconda에서 배포한 3.7버전의 파이썬을 다운받았습니다.
CentOS에 아나콘다를 설치하는 방법은 아래의 링크에 잘 나와있습니다.
PySpark Shell
스파크는 여러 언어의 인터페이스를 제공하지만 Scala와 Python을 많이 사용합니다.
설치 확인을 위해 Python 셸을 실행시켜보도록 하겠습니다.
기본적으로 spark는 OS에 등록되어있는 파이썬을 사용합니다.
파이썬 버전의 다르게 설정되어있거나, 명령어가 그냥 python이 아니라면,
/etc/profile파일이나 .profile파일을 열어 다음 한줄을 더해줍니다.
export PYSPARK_PYTHON=python3
그리고 source명령으로 해당 설정을 적용해줍니다.
마지막으로 위 명령을 alias로 등록하겠습니다.
.bash_profile파일을 열어 다음 한줄을 더해줍니다.
alias pyspark=~/spark/bin/pyspark
역시 해당 파일을 source 명령으로 적용합니다.
이제 마지막으로 pyspark를 실행합니다.
아래 명령어가 이제 spark폴더 내의 bin/pyspark파일을 실행하게 됩니다.
# pyspark
여기까지 Spark설치가 끝났습니다.
'빅데이터 > 스파크' 카테고리의 다른 글
스파크 튜토리얼 - (6) 데이터프레임 (0) | 2019.08.12 |
---|---|
스파크 튜토리얼 - (5) 파일 로딩 (0) | 2019.08.11 |
스파크 튜토리얼 - (4) 페어 RDD (0) | 2019.08.09 |
스파크 튜토리얼 - (3) RDD (0) | 2019.07.29 |
스파크 튜토리얼 - (2) 주피터 노트북 설정 (0) | 2019.07.29 |