728x90
반응형

하둡 27

하둡 1.0 튜토리얼 - (7) HDFS 파일 입출력

환경설정 이번에는 Java 프로그램을 통한 파일 입출력을 해보겠습니다. 먼저 Java언어로 개발을 하기위한 환경설정을 해야합니다. 제가 사용할 환경은 다음과 같습니다: IntelliJ IDEA Community: https://www.jetbrains.com/idea/download/#section=windows Gradle (IntelliJ에서 자동으로 관리) 주의해야할 사항은 Community버전이 아니면 유료라는 것입니다. Gradle의 문법에 대해서는 따로 설명하지 않고 진행하도록 하겠습니다. 프로젝트 생성 IntelliJ IDEA에서 프로젝트를 생성해보겠습니다. IntelliJ를 처음 실행하면 위와같은 화면이 나옵니다. 여기서 Create를 눌러주겠습니다. 위와같은 화면이 나오면 왼쪽 메뉴에서는..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (6) HDFS 명령어

HDFS 명령어 포맷 HDFS 명령어는 기본적으로 다음과같은 포맷으로 사용합니다. > ./bin/hadoop fs -cmd [args] 우리는 alias를 등록해두었기 때문에 어디서든 hadoop을 ./bin/hadoop과 대체해서 사용하면 됩니다. HDFS의 명령어들은 기본적으로 Unix/Linux의 명령어들과 비슷합니다. 파일 목록 보기 파일을 보는것은 다음과 같이 ls를 사용하면 됩니다. > hadoop fs -ls -ls 뒤에 아무 argument도 주지 않으면 hdfs의 홈디렉토리를 출력하게 됩니다. 위의 결과를 보시면 지난번에 넣어주었던 conf폴더와 워드카운트의 결과값으로 나온 wordcount_output파일이 있는것을 볼 수 있습니다. 파일 용량 확인 파일의 용량을 보는것은 du명령을 사..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (5) 하둡 실행

방화벽 해제 우리가 만들어준 4개의 VM은 각각 통신을 해야합니다. 따라서 각 기기의 방화벽을 해제해주도록 하겠습니다. (VM을 사용하지 않고 호스트 기기에서 접속을 하신다면, 이전 포스팅에서 했던 ssh-copy-id를 사용해 호스트의 ssh 키를 각 VM에 복사하시면 비교적 편하게 작업하실 수 있습니다.) > systemctl stop firewalld 이렇게 하면 root의 비밀번호를 요구하고, 방화벽이 멈추게 됩니다. 하둡 실행 이제 doop01기기에서 하둡을 실행해보도록 하겠습니다. 먼저 하둡을 쉽게 실행할 수 있도록 몇가지 명령어 alias를 등록하겠습니다. 홈 디렉토리에서 .bashrc파일을 열어보겠습니다. 위와같은 텍스트 파일이 나와야합니다. 이 파일 역시 .bash_profile과 비슷한..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (4) 클러스터 구성

하둡 설정 전에 언급한 바와 같이 서버는 4개를 클러스터링 할 예정입니다. 각각의 호스트이름은 다음과 같습니다: doop01 doop02 doop03 doop04 하둡은 기본적으로 두가지로 나뉩니다. 바로 hdfs와 맵리듀스입니다. hdfs는 하둡의 파일시스템의 약자이고 하둡이 실제로 사용하는 파일시스템입니다. hdfs는 네임노드와 데이터노드로 나뉩니다. 맵리듀스는 map과 reduce를 수행하는 작업입니다. 기본적으로는 잡트래커와 태스크트래커로 나뉩니다. 잡트래커는 태스크트래커에게 일을 시키는 역할을 하고 태스크트래커는 잡트래커에게 받은 일을 수행하는 역할을 합니다. 보통은 master가 네임노드와 잡트래커를, slave들이 데이터노드와 태스크트래커를 맡습니다. masters 파일 먼저공통적으로 사용될..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (3) 하둡 설치

하둡 1.0 다운로드 이제 하둡 1.0을 설치해보도록 하겠습니다. 하둡 1버전은 이제 조금 오래된 버전이라 apache웹사이트에서는 archive를 한 상태입니다. 아래의 주소로 가시면 하둡 1.2.1버전을 다운받으실 수 있습니다. https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/ 위에 보이는 리스트 중 hadoop-1.2.1.tar.gz를 다운받으시기 바랍니다. 웹사이트로 접속하지 않으셔도 아래 명령을 터미널에 입력하시면 다운을 받을 수 있습니다. > wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz 다운로드가 완료되면 다시한번 scp를 사용해 VM으로 ..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (2) 자바 설치

네트워크 설정 지난 포스팅에서 CentOS를 VM에 설치해 보았습니다. 루트계정으로 로그인 하시면 위와 같은 리눅스 Shell이 나옵니다. 먼저 VM의 네트워크를 설정해주겠습니다. VM상단의 메뉴에서 Devices > Network > Network Settings... 메뉴로 들어가겠습니다. Attached to 메뉴를 NAT에서 Bridged Adapter로 바꾸고, Name에는 본인이 사용하는 네트워크 어댑터를 선택해줍니다. OK를 누르시고 VM에서 아래의 커맨드를 순서대로 입력해보겠습니다. > dhclient > ifconfig ifconfig를 입력하면 나오는 inet옆의 ip주소를 잘 적어두시기 바랍니다. 편의를 위해 이 포스팅에서는 해당 주소를 192.168.1.1로 지정하고 진행하겠습니다...

빅데이터/하둡 2019.07.11

하둡 1.0 튜토리얼 - (1) VM 설치

참고사항 하둡을 네개의 VM에 설치해 클러스터를 운영해 볼것입니다. 제가 따라해본 예제는 각각 2기가의 메모리와 20기가의 하드디스크를 설정해 사용합니다. CentOS 이미지 다운로드 우선 하둡은 리눅스에서 돌려야 하니 RedHat 계열의 CentOS를 다운받겠습니다. 아래의 링크로 접속하셔서 다운 받을 수 있습니다. https://www.centos.org/ 홈페이지에 접속하면 위와 같은 화면이 나오는데, 여기서 Get CentOS Now를 클릭해줍니다. 그러면 위와 같은 화면이 나오는데, 운영에 필요한 기본적인 패키지들이 깔려있는 DVD ISO를 받아주겠습니다. DVD ISO버튼을 클릭하면 위와같은 화면이 나오는데, 이 링크들 중 하나를 선택하시면 다운로드가 시작됩니다. (참고로 저는 neowiz나 ..

빅데이터/하둡 2019.07.11
728x90
반응형