728x90
반응형

항공데이터 3

하둡 1.0 튜토리얼 - (13) 보조정렬

기존 데이터의 문제 지난 포스팅에서 집계한 데이터에는 한가지 문제가 있습니다. 바로 키 값들이 정렬이 안되어 있습니다. 데이터를 조금 더 뽑아보면 문제를 알 수 있습니다. > hadoop fs -cat delay_count_mos/departure-r-00000 | tail -15 마지막 15줄의 데이터를 뽑아보면 다음과 같이 나옵니다. 2007,7307864 2007,8298530 2007,9195615 2008,1247948 2008,10162531 2008,11157278 2008,12263949 2008,2252765 2008,3271969 2008,4220864 2008,5220614 2008,6271014 2008,7253632 2008,8231349 2008,9147061 문제가 보이시나요?..

빅데이터/하둡 2019.07.18

하둡 1.0 튜토리얼 - (12) 다수의 파일 출력

다수의 출력 지난 포스팅에서 -D옵션을 이용해 각각 출발 지연과 도착 지연의 집계를 하나의 jar파일에서 따로 실행하는 법을 공부했습니다. 하지만 이 경우도 귀찮은 점이 있습니다. 매번 커맨드를 돌릴 때 다르게 매개변수를 주어야하고, 출발과 도착의 데이터가 병렬로 처리될 수 없다는 문제점도 있습니다. 이를 위해 하둡에서 다수의 파일 출력을 다루는 법을 공부하겠습니다. Mapper 클래스 먼저 Mapper클래스를 다음과 같이 수정해주었습니다. 파일 이름은 MODelayCountMapper라고 지었습니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Tex..

빅데이터/하둡 2019.07.17

하둡 1.0 튜토리얼 - (10) 항공 데이터 분석 2

맵리듀스 작성 먼저 항공 출발 지연 데이터를 조회하는 맵리듀스를 작성하겠습니다. 이 프로그램은 년도별로 얼마나 많은 항공기에 출발지연이 발생했는지를 집계해주는 프로그램입니다. 출발지연의 Mapper 클래스 먼저 출발지연의 Mapper클래스를 작성해주겠습니다. 이전에 언급한 바와 같이 맵과 리듀스는 입력과 출력을 페어로 주고받습니다. 아래의 코드에서 Map의 입력의 Key는 오프셋 즉 Long의 숫자값이고, Value는 운항 데이터의 한줄 전체 Text입니다. 출력의 Key는 운항년도,운항월 형식의 Text이고, Value는 항상 1의 Int값을 출력합니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; ..

빅데이터/하둡 2019.07.15
728x90
반응형