728x90
반응형

시작하세요! 하둡 프로그래밍 14

하둡 1.0 튜토리얼 - (15) 전체정렬

전체 정렬 전체 정렬이란 입력 데이터를 먼저 개발자가 샘플링 해서 데이터의 분포도를 조사한 뒤, 미리 파티션의 갯수와 파티션에 저장할 데이터의 범위를 조사한 분포에 맞게 정해주는 정렬 방법입니다. 이때 분포와 파티션 정보가 잘 들어맞는다면 분산환경의 장점을 살려 좋은 효율을 내겠지만, 계산법이 틀렸다면, 특정 파티션에 데이터가 집중되면서 그 리듀스 태스크는 부하가 걸려 오래걸리게 됩니다. 전체정렬은 결국 다른 방식으로 부분정렬을 하고, 그 부분정렬을 모두 합치면 전체정렬이 완성됩니다. 정렬의 관점에서만 보면 전체정렬이 더 낫다고 볼 수 있으나, 부분정렬은 검색이 용이하다는 장점이 있기 때문에 각각의 용도가 다르다고 보면 됩니다. 전체정렬 구현 전체 정렬은 시퀀스파일이 이미 생성되었다는 것을 전제로 진행됩..

빅데이터/하둡 2019.07.18

하둡 1.0 튜토리얼 - (14) 부분정렬

부분정렬 이번에는 같은 데이터를 다른 방식으로 정렬해보겠습니다. 항공 데이터를 운항 거리 순으로 정렬해보겠습니다. 부분 정렬이란, Map작업의 결과를 MapFile이라는 다른 형식으로 변경해 저장한 뒤, 이를 검색하는 방법입니다. 이는 먼저 입력 데이터를 시퀀스파일을 변환하고, 시퀀스파일을 맵파일로 변경합니다. 그리고 맵파일에서 데이터를 검색/조회하는 방식으로 수행됩니다. 프로젝트 생성 먼저 프로젝트를 생성해주도록 하겠습니다. IntelliJ에서 partialSort라는 프로젝트를 생성합니다. 이 프로젝트에서는 3개의 각기 다른 jar빌드를 해주어야 하기 때문에, 하위 모듈들을 생성해주겠습니다. 가장 상위 모듈인 partialSort모듈에 오른쪽 클릭을 하시고, New > Module을 선택해 모듈들을 ..

빅데이터/하둡 2019.07.18

하둡 1.0 튜토리얼 - (13) 보조정렬

기존 데이터의 문제 지난 포스팅에서 집계한 데이터에는 한가지 문제가 있습니다. 바로 키 값들이 정렬이 안되어 있습니다. 데이터를 조금 더 뽑아보면 문제를 알 수 있습니다. > hadoop fs -cat delay_count_mos/departure-r-00000 | tail -15 마지막 15줄의 데이터를 뽑아보면 다음과 같이 나옵니다. 2007,7307864 2007,8298530 2007,9195615 2008,1247948 2008,10162531 2008,11157278 2008,12263949 2008,2252765 2008,3271969 2008,4220864 2008,5220614 2008,6271014 2008,7253632 2008,8231349 2008,9147061 문제가 보이시나요?..

빅데이터/하둡 2019.07.18

하둡 1.0 튜토리얼 - (12) 다수의 파일 출력

다수의 출력 지난 포스팅에서 -D옵션을 이용해 각각 출발 지연과 도착 지연의 집계를 하나의 jar파일에서 따로 실행하는 법을 공부했습니다. 하지만 이 경우도 귀찮은 점이 있습니다. 매번 커맨드를 돌릴 때 다르게 매개변수를 주어야하고, 출발과 도착의 데이터가 병렬로 처리될 수 없다는 문제점도 있습니다. 이를 위해 하둡에서 다수의 파일 출력을 다루는 법을 공부하겠습니다. Mapper 클래스 먼저 Mapper클래스를 다음과 같이 수정해주었습니다. 파일 이름은 MODelayCountMapper라고 지었습니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Tex..

빅데이터/하둡 2019.07.17

하둡 1.0 튜토리얼 - (11) 사용자 정의 옵션

Configuration 추가 하둡은 사용자가 여러가지 설정을 추가할 수 있도록 해줍니다. 이전에 작성했던 코드 중 Configuration 클래스를 보셨을 것입니다. 사용자 지정 설정은 이 Configuration설정을 통해 가능합니다. 지난 포스팅에서 작성했던 코드는 출발 지연 데이터와 도착 지연 데이터가 각각 다른 Mapper와 Driver클레스에 구현되었고, 빌드 설정과 빌드 Artifact또한 따로 생성해 주어야 했습니다. 이번 포스팅에서는 이를 설정으로 해결해주겠습니다. Mapper 수정 먼저 새로운 Mapper클래스를 추가하겠습니다. DelayCountMapper.java라고 이름 짓고 아래 코드를 작성해줍니다. public class DelayCountMapper extends Mapper..

빅데이터/하둡 2019.07.17

하둡 1.0 튜토리얼 - (10) 항공 데이터 분석 2

맵리듀스 작성 먼저 항공 출발 지연 데이터를 조회하는 맵리듀스를 작성하겠습니다. 이 프로그램은 년도별로 얼마나 많은 항공기에 출발지연이 발생했는지를 집계해주는 프로그램입니다. 출발지연의 Mapper 클래스 먼저 출발지연의 Mapper클래스를 작성해주겠습니다. 이전에 언급한 바와 같이 맵과 리듀스는 입력과 출력을 페어로 주고받습니다. 아래의 코드에서 Map의 입력의 Key는 오프셋 즉 Long의 숫자값이고, Value는 운항 데이터의 한줄 전체 Text입니다. 출력의 Key는 운항년도,운항월 형식의 Text이고, Value는 항상 1의 Int값을 출력합니다. import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; ..

빅데이터/하둡 2019.07.15

하둡 1.0 튜토리얼 - (9) 항공 데이터 분석 1

데이터 준비 데이터 설명 이번에는 맵리듀스를 사용해 실제 데이터 분석을 해보려 합니다. 먼저 다음 사이트에서 데이터를 다운받아야 합니다. http://stat-computing.org/dataexpo/2009/the-data.html 위의 링크의 데이터는 미국 내 모든 항공편에 대한 도착과 출발에 대한 세부 정보들을 담은 데이터입니다. 년, 월, 등 시간 및 항공사 정보, 출발시간, 도착시간, 출발지, 도착지 등에 대한 데이터가 들어있습니다. 데이터 다운로드 위의 링크로 들어가면 년도별로 데이터를 다운받을 수 있지만, Shell Script를 사용해 한번에 데이터를 내려받고, 수정하도록 하겠습니다. 수정 내용은, 첫줄의 컬럼정보를 없애는 작업입니다. #!/bin/bash for ((i=1987; i $i..

빅데이터/하둡 2019.07.15

하둡 1.0 튜토리얼 - (8) 맵리듀스

맵리듀스 하둡에서 파일을 분석하고 조회할때는 맵리듀스라는 기술을 사용합니다. JobTracker는 각 TaskTracker에서 Map을 수행할 수 있도록 데이터를 분배하고 Map 프로그램을 건네줍니다. 이때 데이터의 입출력은 항상 페어로 전달됩니다. TaskTracker는 Map 프로그램을 수행하고 결과를 자신의 로컬 디스크에 파일로 떨궈줍니다. 하둡 시스템은 TaskTracker들이 Map수행이 모두 끝날때까지 기다렸다가 파일들을 Reduce를 수행할 TaskTracker들에게 전달합니다. 이 작업을 Shuffle/Sort라고 부릅니다. Reduce를 전달받은 TaskTracker들은 Reduce 프로그램을 수행하고 마지막으로 집계를 한 뒤 최종 파일을 생성합니다. 위의 단계들 중 Map과 Reduce..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (7) HDFS 파일 입출력

환경설정 이번에는 Java 프로그램을 통한 파일 입출력을 해보겠습니다. 먼저 Java언어로 개발을 하기위한 환경설정을 해야합니다. 제가 사용할 환경은 다음과 같습니다: IntelliJ IDEA Community: https://www.jetbrains.com/idea/download/#section=windows Gradle (IntelliJ에서 자동으로 관리) 주의해야할 사항은 Community버전이 아니면 유료라는 것입니다. Gradle의 문법에 대해서는 따로 설명하지 않고 진행하도록 하겠습니다. 프로젝트 생성 IntelliJ IDEA에서 프로젝트를 생성해보겠습니다. IntelliJ를 처음 실행하면 위와같은 화면이 나옵니다. 여기서 Create를 눌러주겠습니다. 위와같은 화면이 나오면 왼쪽 메뉴에서는..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (6) HDFS 명령어

HDFS 명령어 포맷 HDFS 명령어는 기본적으로 다음과같은 포맷으로 사용합니다. > ./bin/hadoop fs -cmd [args] 우리는 alias를 등록해두었기 때문에 어디서든 hadoop을 ./bin/hadoop과 대체해서 사용하면 됩니다. HDFS의 명령어들은 기본적으로 Unix/Linux의 명령어들과 비슷합니다. 파일 목록 보기 파일을 보는것은 다음과 같이 ls를 사용하면 됩니다. > hadoop fs -ls -ls 뒤에 아무 argument도 주지 않으면 hdfs의 홈디렉토리를 출력하게 됩니다. 위의 결과를 보시면 지난번에 넣어주었던 conf폴더와 워드카운트의 결과값으로 나온 wordcount_output파일이 있는것을 볼 수 있습니다. 파일 용량 확인 파일의 용량을 보는것은 du명령을 사..

빅데이터/하둡 2019.07.12
728x90
반응형