스파크 아파치 스파크는 하둡 맵리듀스의 단점을 보완하고자 개발된 플랫폼 입니다. 메모리 베이스로 데이터를 처리하기 때문에 파일기반인 하둡보다 빠르고, DAG를 이용한 데이터의 흐름을 먼저 계산하기 때문에 복잡한 계산을 할 때 역시 하둡의 맵리듀스보다 빠른 경우가 많습니다. 환경설정 저는 VirtualBox에 linux OS (CentOS 7)를 별도로 깔아 사용하였습니다. 또한 Python역시 기존 OS에 설치되어있는 3.6버전을 사용하였습니다. 자바 설치 스파크는 JVM기반인 Scala로 만들어져 있습니다. 따라서 스파크에서 무언가를 하려면 Java가 설치되어있어야 합니다. 자바는 다음 링크에서 다운받아 설치해주시면 됩니다. (링크는 java 8버전 입니다.) https://www.oracle.com/..