'hdfs' 태그의 글 목록

하둡 1.0 튜토리얼 - (8) 맵리듀스

맵리듀스 하둡에서 파일을 분석하고 조회할때는 맵리듀스라는 기술을 사용합니다. JobTracker는 각 TaskTracker에서 Map을 수행할 수 있도록 데이터를 분배하고 Map 프로그램을 건네줍니다. 이때 데이터의 입출력은 항상 페어로 전달됩니다. TaskTracker는 Map 프로그램을 수행하고 결과를 자신의 로컬 디스크에 파일로 떨궈줍니다. 하둡 시스템은 TaskTracker들이 Map수행이 모두 끝날때까지 기다렸다가 파일들을 Reduce를 수행할 TaskTracker들에게 전달합니다. 이 작업을 Shuffle/Sort라고 부릅니다. Reduce를 전달받은 TaskTracker들은 Reduce 프로그램을 수행하고 마지막으로 집계를 한 뒤 최종 파일을 생성합니다. 위의 단계들 중 Map과 Reduce..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (7) HDFS 파일 입출력

환경설정 이번에는 Java 프로그램을 통한 파일 입출력을 해보겠습니다. 먼저 Java언어로 개발을 하기위한 환경설정을 해야합니다. 제가 사용할 환경은 다음과 같습니다: IntelliJ IDEA Community: https://www.jetbrains.com/idea/download/#section=windows Gradle (IntelliJ에서 자동으로 관리) 주의해야할 사항은 Community버전이 아니면 유료라는 것입니다. Gradle의 문법에 대해서는 따로 설명하지 않고 진행하도록 하겠습니다. 프로젝트 생성 IntelliJ IDEA에서 프로젝트를 생성해보겠습니다. IntelliJ를 처음 실행하면 위와같은 화면이 나옵니다. 여기서 Create를 눌러주겠습니다. 위와같은 화면이 나오면 왼쪽 메뉴에서는..

빅데이터/하둡 2019.07.14

하둡 1.0 튜토리얼 - (6) HDFS 명령어

HDFS 명령어 포맷 HDFS 명령어는 기본적으로 다음과같은 포맷으로 사용합니다. > ./bin/hadoop fs -cmd [args] 우리는 alias를 등록해두었기 때문에 어디서든 hadoop을 ./bin/hadoop과 대체해서 사용하면 됩니다. HDFS의 명령어들은 기본적으로 Unix/Linux의 명령어들과 비슷합니다. 파일 목록 보기 파일을 보는것은 다음과 같이 ls를 사용하면 됩니다. > hadoop fs -ls -ls 뒤에 아무 argument도 주지 않으면 hdfs의 홈디렉토리를 출력하게 됩니다. 위의 결과를 보시면 지난번에 넣어주었던 conf폴더와 워드카운트의 결과값으로 나온 wordcount_output파일이 있는것을 볼 수 있습니다. 파일 용량 확인 파일의 용량을 보는것은 du명령을 사..

빅데이터/하둡 2019.07.12

금융덕후

hdfs 3

티스토리툴바