728x90
반응형

Hadoop 1.0 2

하둡 1.0 튜토리얼 - (10) 항공 데이터 분석 2

맵리듀스 작성 먼저 항공 출발 지연 데이터를 조회하는 맵리듀스를 작성하겠습니다. 이 프로그램은 년도별로 얼마나 많은 항공기에 출발지연이 발생했는지를 집계해주는 프로그램입니다. 출발지연의 Mapper 클래스 먼저 출발지연의 Mapper클래스를 작성해주겠습니다. 이전에 언급한 바와 같이 맵과 리듀스는 입력과 출력을 페어로 주고받습니다. 아래의 코드에서 Map의 입력의 Key는 오프셋 즉 Long의 숫자값이고, Value는 운항 데이터의 한줄 전체 Text입니다. 출력의 Key는 운항년도,운항월 형식의 Text이고, Value는 항상 1의 Int값을 출력합니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; ..

빅데이터/하둡 2019.07.15

하둡 1.0 튜토리얼 - (4) 클러스터 구성

하둡 설정 전에 언급한 바와 같이 서버는 4개를 클러스터링 할 예정입니다. 각각의 호스트이름은 다음과 같습니다: doop01 doop02 doop03 doop04 하둡은 기본적으로 두가지로 나뉩니다. 바로 hdfs와 맵리듀스입니다. hdfs는 하둡의 파일시스템의 약자이고 하둡이 실제로 사용하는 파일시스템입니다. hdfs는 네임노드와 데이터노드로 나뉩니다. 맵리듀스는 map과 reduce를 수행하는 작업입니다. 기본적으로는 잡트래커와 태스크트래커로 나뉩니다. 잡트래커는 태스크트래커에게 일을 시키는 역할을 하고 태스크트래커는 잡트래커에게 받은 일을 수행하는 역할을 합니다. 보통은 master가 네임노드와 잡트래커를, slave들이 데이터노드와 태스크트래커를 맡습니다. masters 파일 먼저공통적으로 사용될..

빅데이터/하둡 2019.07.12
728x90
반응형