728x90
반응형

분류 전체보기 204

하둡 1.0 튜토리얼 - (6) HDFS 명령어

HDFS 명령어 포맷 HDFS 명령어는 기본적으로 다음과같은 포맷으로 사용합니다. > ./bin/hadoop fs -cmd [args] 우리는 alias를 등록해두었기 때문에 어디서든 hadoop을 ./bin/hadoop과 대체해서 사용하면 됩니다. HDFS의 명령어들은 기본적으로 Unix/Linux의 명령어들과 비슷합니다. 파일 목록 보기 파일을 보는것은 다음과 같이 ls를 사용하면 됩니다. > hadoop fs -ls -ls 뒤에 아무 argument도 주지 않으면 hdfs의 홈디렉토리를 출력하게 됩니다. 위의 결과를 보시면 지난번에 넣어주었던 conf폴더와 워드카운트의 결과값으로 나온 wordcount_output파일이 있는것을 볼 수 있습니다. 파일 용량 확인 파일의 용량을 보는것은 du명령을 사..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (5) 하둡 실행

방화벽 해제 우리가 만들어준 4개의 VM은 각각 통신을 해야합니다. 따라서 각 기기의 방화벽을 해제해주도록 하겠습니다. (VM을 사용하지 않고 호스트 기기에서 접속을 하신다면, 이전 포스팅에서 했던 ssh-copy-id를 사용해 호스트의 ssh 키를 각 VM에 복사하시면 비교적 편하게 작업하실 수 있습니다.) > systemctl stop firewalld 이렇게 하면 root의 비밀번호를 요구하고, 방화벽이 멈추게 됩니다. 하둡 실행 이제 doop01기기에서 하둡을 실행해보도록 하겠습니다. 먼저 하둡을 쉽게 실행할 수 있도록 몇가지 명령어 alias를 등록하겠습니다. 홈 디렉토리에서 .bashrc파일을 열어보겠습니다. 위와같은 텍스트 파일이 나와야합니다. 이 파일 역시 .bash_profile과 비슷한..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (4) 클러스터 구성

하둡 설정 전에 언급한 바와 같이 서버는 4개를 클러스터링 할 예정입니다. 각각의 호스트이름은 다음과 같습니다: doop01 doop02 doop03 doop04 하둡은 기본적으로 두가지로 나뉩니다. 바로 hdfs와 맵리듀스입니다. hdfs는 하둡의 파일시스템의 약자이고 하둡이 실제로 사용하는 파일시스템입니다. hdfs는 네임노드와 데이터노드로 나뉩니다. 맵리듀스는 map과 reduce를 수행하는 작업입니다. 기본적으로는 잡트래커와 태스크트래커로 나뉩니다. 잡트래커는 태스크트래커에게 일을 시키는 역할을 하고 태스크트래커는 잡트래커에게 받은 일을 수행하는 역할을 합니다. 보통은 master가 네임노드와 잡트래커를, slave들이 데이터노드와 태스크트래커를 맡습니다. masters 파일 먼저공통적으로 사용될..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (3) 하둡 설치

하둡 1.0 다운로드 이제 하둡 1.0을 설치해보도록 하겠습니다. 하둡 1버전은 이제 조금 오래된 버전이라 apache웹사이트에서는 archive를 한 상태입니다. 아래의 주소로 가시면 하둡 1.2.1버전을 다운받으실 수 있습니다. https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/ 위에 보이는 리스트 중 hadoop-1.2.1.tar.gz를 다운받으시기 바랍니다. 웹사이트로 접속하지 않으셔도 아래 명령을 터미널에 입력하시면 다운을 받을 수 있습니다. > wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz 다운로드가 완료되면 다시한번 scp를 사용해 VM으로 ..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (2) 자바 설치

네트워크 설정 지난 포스팅에서 CentOS를 VM에 설치해 보았습니다. 루트계정으로 로그인 하시면 위와 같은 리눅스 Shell이 나옵니다. 먼저 VM의 네트워크를 설정해주겠습니다. VM상단의 메뉴에서 Devices > Network > Network Settings... 메뉴로 들어가겠습니다. Attached to 메뉴를 NAT에서 Bridged Adapter로 바꾸고, Name에는 본인이 사용하는 네트워크 어댑터를 선택해줍니다. OK를 누르시고 VM에서 아래의 커맨드를 순서대로 입력해보겠습니다. > dhclient > ifconfig ifconfig를 입력하면 나오는 inet옆의 ip주소를 잘 적어두시기 바랍니다. 편의를 위해 이 포스팅에서는 해당 주소를 192.168.1.1로 지정하고 진행하겠습니다...

빅데이터/하둡 2019.07.11

하둡 1.0 튜토리얼 - (1) VM 설치

참고사항 하둡을 네개의 VM에 설치해 클러스터를 운영해 볼것입니다. 제가 따라해본 예제는 각각 2기가의 메모리와 20기가의 하드디스크를 설정해 사용합니다. CentOS 이미지 다운로드 우선 하둡은 리눅스에서 돌려야 하니 RedHat 계열의 CentOS를 다운받겠습니다. 아래의 링크로 접속하셔서 다운 받을 수 있습니다. https://www.centos.org/ 홈페이지에 접속하면 위와 같은 화면이 나오는데, 여기서 Get CentOS Now를 클릭해줍니다. 그러면 위와 같은 화면이 나오는데, 운영에 필요한 기본적인 패키지들이 깔려있는 DVD ISO를 받아주겠습니다. DVD ISO버튼을 클릭하면 위와같은 화면이 나오는데, 이 링크들 중 하나를 선택하시면 다운로드가 시작됩니다. (참고로 저는 neowiz나 ..

빅데이터/하둡 2019.07.11

PyTorch 2 - 로지스틱 회귀

PyTorch를 활용한 로지스틱회귀¶ 로지스틱회귀는 주어진 데이터를 0이나 1값으로 분류하는 선형 분류 모델이다. In [176]: import torch from torch import autograd, nn, optim import torch.nn.functional as F import numpy as np In [177]: lin = lambda a, b, x : a*x + b def gen_fake_data(n, a, b): x = np.random.uniform(-20, 20, (n, 2)) x2_hat = lin(a,b, x[:,0]) y = x[:,1] > x2_hat return x, y.astype(int) # 분류문제에 맞는 가짜 데이터를 생성한다 x, y = gen_fake_data..

PyTorch 1 - 텐서

PyTorch 기본¶ 먼저 PyTorch의 주요 패키지들을 가져온다. torch는 PyTorch의 최상위 패키지이고, Numpy와 비슷하지만, Tensor라는 N차원벡터를 GPU위에서 다룰 수 있는 패키지이다. torch.autograd는 경사하강법 및 미분을 자동으로 해주는 패키지이다. torch.nn은 여러 많이 사용되는 신경망들의 구현체를 가지고있는 패키지이다. torch.optim은 SGD나 Adam을 비롯한 여러가지 최적화 함수들을 가지고있는 패키지이다. PyTorch 텐서¶ 위에서 언급한 것 처럼 텐서는 N차원벡터들을 의미한다. 아래는 PyTorch에서 텐서를 어떻게 사용하는지 보여주는 코드이다. In [2]: import torch from torch import autograd, nn, o..

추천시스템 16 - 사용자-사용자 협업필터링 코드예제

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 원본 코드 예제에서는 Excel로 코딩하게 되어있지만, 파이썬으로 코딩한 예제입니다. 사용자-사용자 협업필터링¶ 정규화 없는 협업필터링¶ 사용자-사용자 연관성 행렬을 완성하시오. 체크를 위해서, 사용자 1648과 사용자 5136의 연관성은 0.40298, 그리고 사용자 918과 사용자 2824의 연관성은 -0.31706이다. 사용자들 사이의 연관성은 -1에서 1사이이다. 사용자 3867과 사용자 89의 이웃을 각각 ..

추천시스템 15 - 단항의 아이템 추천

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 단항의 아이템 데이터 단항의 아이템 데이터는 곧 간접적 선호도 정보를 말한다. 아이템의 클릭 수 음악의 플레이 수 구매 이력 등 이런 데이터를 사용하려면 조금의 조정이 필요하다. 다른말로 표현하면, 위와같은 데이터를 평점과 같이 수치화 할 수 있어야 한다. 0/1의 값으로 구매했는지 안했는지 사용 몇번 구매/플레이를 했는지 정보의 수치화 그렇다면 이 정보를 어떻게 수치화하고 정규화할 수 있을까? 평균중심화는 별로 의..

728x90
반응형