'데이터' 태그의 글 목록

하둡 1.0 튜토리얼 - (12) 다수의 파일 출력

다수의 출력 지난 포스팅에서 -D옵션을 이용해 각각 출발 지연과 도착 지연의 집계를 하나의 jar파일에서 따로 실행하는 법을 공부했습니다. 하지만 이 경우도 귀찮은 점이 있습니다. 매번 커맨드를 돌릴 때 다르게 매개변수를 주어야하고, 출발과 도착의 데이터가 병렬로 처리될 수 없다는 문제점도 있습니다. 이를 위해 하둡에서 다수의 파일 출력을 다루는 법을 공부하겠습니다. Mapper 클래스 먼저 Mapper클래스를 다음과 같이 수정해주었습니다. 파일 이름은 MODelayCountMapper라고 지었습니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Tex..

빅데이터/하둡 2019.07.17

하둡 1.0 튜토리얼 - (11) 사용자 정의 옵션

Configuration 추가 하둡은 사용자가 여러가지 설정을 추가할 수 있도록 해줍니다. 이전에 작성했던 코드 중 Configuration 클래스를 보셨을 것입니다. 사용자 지정 설정은 이 Configuration설정을 통해 가능합니다. 지난 포스팅에서 작성했던 코드는 출발 지연 데이터와 도착 지연 데이터가 각각 다른 Mapper와 Driver클레스에 구현되었고, 빌드 설정과 빌드 Artifact또한 따로 생성해 주어야 했습니다. 이번 포스팅에서는 이를 설정으로 해결해주겠습니다. Mapper 수정 먼저 새로운 Mapper클래스를 추가하겠습니다. DelayCountMapper.java라고 이름 짓고 아래 코드를 작성해줍니다. public class DelayCountMapper extends Mapper..

빅데이터/하둡 2019.07.17

하둡 1.0 튜토리얼 - (9) 항공 데이터 분석 1

데이터 준비 데이터 설명 이번에는 맵리듀스를 사용해 실제 데이터 분석을 해보려 합니다. 먼저 다음 사이트에서 데이터를 다운받아야 합니다. http://stat-computing.org/dataexpo/2009/the-data.html 위의 링크의 데이터는 미국 내 모든 항공편에 대한 도착과 출발에 대한 세부 정보들을 담은 데이터입니다. 년, 월, 등 시간 및 항공사 정보, 출발시간, 도착시간, 출발지, 도착지 등에 대한 데이터가 들어있습니다. 데이터 다운로드 위의 링크로 들어가면 년도별로 데이터를 다운받을 수 있지만, Shell Script를 사용해 한번에 데이터를 내려받고, 수정하도록 하겠습니다. 수정 내용은, 첫줄의 컬럼정보를 없애는 작업입니다. #!/bin/bash for ((i=1987; i $i..

빅데이터/하둡 2019.07.15

하둡 1.0 튜토리얼 - (6) HDFS 명령어

HDFS 명령어 포맷 HDFS 명령어는 기본적으로 다음과같은 포맷으로 사용합니다. > ./bin/hadoop fs -cmd [args] 우리는 alias를 등록해두었기 때문에 어디서든 hadoop을 ./bin/hadoop과 대체해서 사용하면 됩니다. HDFS의 명령어들은 기본적으로 Unix/Linux의 명령어들과 비슷합니다. 파일 목록 보기 파일을 보는것은 다음과 같이 ls를 사용하면 됩니다. > hadoop fs -ls -ls 뒤에 아무 argument도 주지 않으면 hdfs의 홈디렉토리를 출력하게 됩니다. 위의 결과를 보시면 지난번에 넣어주었던 conf폴더와 워드카운트의 결과값으로 나온 wordcount_output파일이 있는것을 볼 수 있습니다. 파일 용량 확인 파일의 용량을 보는것은 du명령을 사..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (5) 하둡 실행

방화벽 해제 우리가 만들어준 4개의 VM은 각각 통신을 해야합니다. 따라서 각 기기의 방화벽을 해제해주도록 하겠습니다. (VM을 사용하지 않고 호스트 기기에서 접속을 하신다면, 이전 포스팅에서 했던 ssh-copy-id를 사용해 호스트의 ssh 키를 각 VM에 복사하시면 비교적 편하게 작업하실 수 있습니다.) > systemctl stop firewalld 이렇게 하면 root의 비밀번호를 요구하고, 방화벽이 멈추게 됩니다. 하둡 실행 이제 doop01기기에서 하둡을 실행해보도록 하겠습니다. 먼저 하둡을 쉽게 실행할 수 있도록 몇가지 명령어 alias를 등록하겠습니다. 홈 디렉토리에서 .bashrc파일을 열어보겠습니다. 위와같은 텍스트 파일이 나와야합니다. 이 파일 역시 .bash_profile과 비슷한..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (4) 클러스터 구성

하둡 설정 전에 언급한 바와 같이 서버는 4개를 클러스터링 할 예정입니다. 각각의 호스트이름은 다음과 같습니다: doop01 doop02 doop03 doop04 하둡은 기본적으로 두가지로 나뉩니다. 바로 hdfs와 맵리듀스입니다. hdfs는 하둡의 파일시스템의 약자이고 하둡이 실제로 사용하는 파일시스템입니다. hdfs는 네임노드와 데이터노드로 나뉩니다. 맵리듀스는 map과 reduce를 수행하는 작업입니다. 기본적으로는 잡트래커와 태스크트래커로 나뉩니다. 잡트래커는 태스크트래커에게 일을 시키는 역할을 하고 태스크트래커는 잡트래커에게 받은 일을 수행하는 역할을 합니다. 보통은 master가 네임노드와 잡트래커를, slave들이 데이터노드와 태스크트래커를 맡습니다. masters 파일 먼저공통적으로 사용될..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (3) 하둡 설치

하둡 1.0 다운로드 이제 하둡 1.0을 설치해보도록 하겠습니다. 하둡 1버전은 이제 조금 오래된 버전이라 apache웹사이트에서는 archive를 한 상태입니다. 아래의 주소로 가시면 하둡 1.2.1버전을 다운받으실 수 있습니다. https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/ 위에 보이는 리스트 중 hadoop-1.2.1.tar.gz를 다운받으시기 바랍니다. 웹사이트로 접속하지 않으셔도 아래 명령을 터미널에 입력하시면 다운을 받을 수 있습니다. > wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz 다운로드가 완료되면 다시한번 scp를 사용해 VM으로 ..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (1) VM 설치

참고사항 하둡을 네개의 VM에 설치해 클러스터를 운영해 볼것입니다. 제가 따라해본 예제는 각각 2기가의 메모리와 20기가의 하드디스크를 설정해 사용합니다. CentOS 이미지 다운로드 우선 하둡은 리눅스에서 돌려야 하니 RedHat 계열의 CentOS를 다운받겠습니다. 아래의 링크로 접속하셔서 다운 받을 수 있습니다. https://www.centos.org/ 홈페이지에 접속하면 위와 같은 화면이 나오는데, 여기서 Get CentOS Now를 클릭해줍니다. 그러면 위와 같은 화면이 나오는데, 운영에 필요한 기본적인 패키지들이 깔려있는 DVD ISO를 받아주겠습니다. DVD ISO버튼을 클릭하면 위와같은 화면이 나오는데, 이 링크들 중 하나를 선택하시면 다운로드가 시작됩니다. (참고로 저는 neowiz나 ..

빅데이터/하둡 2019.07.11

금융덕후

데이터 8

티스토리툴바