728x90
반응형

인공지능 50

하둡 1.0 튜토리얼 - (3) 하둡 설치

하둡 1.0 다운로드 이제 하둡 1.0을 설치해보도록 하겠습니다. 하둡 1버전은 이제 조금 오래된 버전이라 apache웹사이트에서는 archive를 한 상태입니다. 아래의 주소로 가시면 하둡 1.2.1버전을 다운받으실 수 있습니다. https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/ 위에 보이는 리스트 중 hadoop-1.2.1.tar.gz를 다운받으시기 바랍니다. 웹사이트로 접속하지 않으셔도 아래 명령을 터미널에 입력하시면 다운을 받을 수 있습니다. > wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz 다운로드가 완료되면 다시한번 scp를 사용해 VM으로 ..

빅데이터/하둡 2019.07.12

하둡 1.0 튜토리얼 - (2) 자바 설치

네트워크 설정 지난 포스팅에서 CentOS를 VM에 설치해 보았습니다. 루트계정으로 로그인 하시면 위와 같은 리눅스 Shell이 나옵니다. 먼저 VM의 네트워크를 설정해주겠습니다. VM상단의 메뉴에서 Devices > Network > Network Settings... 메뉴로 들어가겠습니다. Attached to 메뉴를 NAT에서 Bridged Adapter로 바꾸고, Name에는 본인이 사용하는 네트워크 어댑터를 선택해줍니다. OK를 누르시고 VM에서 아래의 커맨드를 순서대로 입력해보겠습니다. > dhclient > ifconfig ifconfig를 입력하면 나오는 inet옆의 ip주소를 잘 적어두시기 바랍니다. 편의를 위해 이 포스팅에서는 해당 주소를 192.168.1.1로 지정하고 진행하겠습니다...

빅데이터/하둡 2019.07.11

하둡 1.0 튜토리얼 - (1) VM 설치

참고사항 하둡을 네개의 VM에 설치해 클러스터를 운영해 볼것입니다. 제가 따라해본 예제는 각각 2기가의 메모리와 20기가의 하드디스크를 설정해 사용합니다. CentOS 이미지 다운로드 우선 하둡은 리눅스에서 돌려야 하니 RedHat 계열의 CentOS를 다운받겠습니다. 아래의 링크로 접속하셔서 다운 받을 수 있습니다. https://www.centos.org/ 홈페이지에 접속하면 위와 같은 화면이 나오는데, 여기서 Get CentOS Now를 클릭해줍니다. 그러면 위와 같은 화면이 나오는데, 운영에 필요한 기본적인 패키지들이 깔려있는 DVD ISO를 받아주겠습니다. DVD ISO버튼을 클릭하면 위와같은 화면이 나오는데, 이 링크들 중 하나를 선택하시면 다운로드가 시작됩니다. (참고로 저는 neowiz나 ..

빅데이터/하둡 2019.07.11

추천시스템 12 - 컨텐츠기반 추천 코드예제

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 원본 코드 예제에서는 Excel로 코딩하게 되어있지만, 파이썬으로 코딩한 예제입니다. 1. 컨텐츠 기반 추천¶ 20개의 문서와 10개의 속성이 있다. 그리고 각 사용자마다 5개의 문서에 대한 평가가 있다. 이번 과제에서는 각 속성의 Count를 무시하고 Boolean값 (0/1)으로만 취급하도록 하겠다. 그리고 사용자의 평가는 긍정적이면 1 부정적이면 -1로 기록되어있다. 사용자 프로필 구축¶ 먼저 ..

추천시스템 11 - TFIDF

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems TFIDF TFIDF기법은 정보검색 분야에서 출발한 개녑이다. 정보검색과 관련된 개념을 자세히 설명하지는 않을것이지만, 정보검색에 TFIDF가 어떻게 쓰였는지 들여다 보도록 하자. 만약 기본적인 검색기능(태그 와 랭킹 기반)이 실패하면 어떻게할까? 특정 단어를 가진 문서를 모두 가져온다면, 너무 많을것이다. 어떠한 방식으로 랭킹을 정하는가? 두가지 요인을 고려해 볼 수 있다. 단어의 빈도는 중요한 요..

추천시스템 9 - 비개인적 추천 코드예제

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 원본 코드 예제에서는 Excel로 코딩하게 되어있지만, 파이썬으로 코딩한 예제입니다. 1. 영화 평점¶ 문제: 평균 평점을 계산하고, 최상위 3개의 영화와 점수를 구하시오 먼저 Pandas 패키지를 import 하겠습니다. In [94]: import pandas as pd movies_df = pd.read_csv('./HW1-data.csv') movies_df.head() Out[94]: Use..

추천시스템 5 - 추천 알고리즘

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 추천 알고리즘의 종류 기본적인 모델 추천 모델에는 다음과 같은 원소들이 있다. 사용자 시스템을 사용하는 사용자들 아이템에 대한 선호도를 가지고있다 아이템 추천을 시행할 대상이다. 평점 사용자가 아이템에 대해 표현하는 선호도이다. (커뮤니티) 사용자들이 표현하는 의견들이 통용되는 공간(커뮤니티) 이다. 사용자는 개개인의 속성(특성)을 가지고 있고, 그 속성에 기반해 사용자모델이 만들어진다. 사용자 모델..

추천시스템 4 - 추천의 분류

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 추천의 분류 추천시스템을 고안할 때는 다음 8가지 분류를 고려해 고안한다: 추천의 도메인 추천의 목적 추천의 맥락 추천의 제안자 개인화의 정도 개인정보와 신뢰도 인터페이스 추천 알고리즘 추천의 도메인 무엇이 추천이 되고있는가? 기사인가, 물건인가, 상품인가? 사람을 추천하는 중인가? 연속적인 무언가 (음악 플레이리스트) 인가? 오래된 아이템을 대하는 방법 어떤 도메인에서는 새로운 아이템을 추천하는데에..

추천시스템 3 - 예측과 추천

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 예측 추천시스템에서 사용자가 한 아이템을 얼마나 좋아할것인가를 예측하는 값. 대부분 사용자의 평점과 맞아 떨어진다. 검색이나 서핑과 밀접한 관계에 있다. 코세라에도 사용자가 이 강의를 얼마나 좋아할 것인지에 대한 예측값이 있다. (사용자의 프로필과는 연관성이 없음) 추천 추천은 예측값과 같이 이만큼 좋아할 것이다 라는 대담한 추측을 하지는 않는다. 추천이란 사용자가 한 아이템을 좋아할 것이라고 제안하..

추천시스템 1 - Intro, 역사, 구성

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 추천시스템의 역사 정보검색 정보검색 분야는 방대한 양의 문서들에 대해 질문할 수 있는 시스템이 필요해서 만들어졌다. 초반에 이 분야가 발전하게 된것은 컴퓨터 회사들의 많은 소송때문이었다. 같은 기술이 도서관의 카탈로그와, WWW의 페이지들의 색인을 만드는데 쓰인다. 사람들은 다이나믹하게 카탈로그를 조회할 수 있기를 원하기 때문에 실시간으로 조회하는 기능이 필요했다. 많이 쓰이는 방식중 하나는, 문서들..

728x90
반응형