728x90
반응형

워드카운트 3

하둡 2.0 튜토리얼 - (5) 워드카운트

하둡 예제 실행 이번 포스팅에서는 하둡에서 기본적으로 제공하는 기본 예제인 워드카운트를 실행해보도록 하겠습니다. 홈디렉토리 생성 먼저 doop계정에 대한 홈 디렉토리를 생성해주겠습니다. 다음 커맨드를 실행해보시면 . 디렉토리가 없다고 나올것입니다. > hdfs dfs -ls 하둡2에서는 계정에 대한 디렉토리를 사용자가 따로 생성해주어야 합니다. 다음 커맨드들을 차례로 실행시커 홈 디렉토리를 만들어주겠습니다. > hdfs dfs -mkdir /home > hdfs dfs -mkdir /home/doop 그리고 다시 -ls 를 실행하면 이제 홈 디렉토리가 생성되었고, 아무 파일/디렉터리가 없기떄문에 아무 로그도 나오지 않을 것입니다. 예제 대상 파일 저장 이제 예제의 대상이 되는 파일을 hdfs로 넣어주겠습..

하둡 1.0 튜토리얼 - (8) 맵리듀스

맵리듀스 하둡에서 파일을 분석하고 조회할때는 맵리듀스라는 기술을 사용합니다. JobTracker는 각 TaskTracker에서 Map을 수행할 수 있도록 데이터를 분배하고 Map 프로그램을 건네줍니다. 이때 데이터의 입출력은 항상 페어로 전달됩니다. TaskTracker는 Map 프로그램을 수행하고 결과를 자신의 로컬 디스크에 파일로 떨궈줍니다. 하둡 시스템은 TaskTracker들이 Map수행이 모두 끝날때까지 기다렸다가 파일들을 Reduce를 수행할 TaskTracker들에게 전달합니다. 이 작업을 Shuffle/Sort라고 부릅니다. Reduce를 전달받은 TaskTracker들은 Reduce 프로그램을 수행하고 마지막으로 집계를 한 뒤 최종 파일을 생성합니다. 위의 단계들 중 Map과 Reduce..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (5) 하둡 실행

방화벽 해제 우리가 만들어준 4개의 VM은 각각 통신을 해야합니다. 따라서 각 기기의 방화벽을 해제해주도록 하겠습니다. (VM을 사용하지 않고 호스트 기기에서 접속을 하신다면, 이전 포스팅에서 했던 ssh-copy-id를 사용해 호스트의 ssh 키를 각 VM에 복사하시면 비교적 편하게 작업하실 수 있습니다.) > systemctl stop firewalld 이렇게 하면 root의 비밀번호를 요구하고, 방화벽이 멈추게 됩니다. 하둡 실행 이제 doop01기기에서 하둡을 실행해보도록 하겠습니다. 먼저 하둡을 쉽게 실행할 수 있도록 몇가지 명령어 alias를 등록하겠습니다. 홈 디렉토리에서 .bashrc파일을 열어보겠습니다. 위와같은 텍스트 파일이 나와야합니다. 이 파일 역시 .bash_profile과 비슷한..

빅데이터/하둡 2019.07.12
728x90
반응형