728x90
반응형

coursera 20

추천시스템 15 - 단항의 아이템 추천

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 단항의 아이템 데이터 단항의 아이템 데이터는 곧 간접적 선호도 정보를 말한다. 아이템의 클릭 수 음악의 플레이 수 구매 이력 등 이런 데이터를 사용하려면 조금의 조정이 필요하다. 다른말로 표현하면, 위와같은 데이터를 평점과 같이 수치화 할 수 있어야 한다. 0/1의 값으로 구매했는지 안했는지 사용 몇번 구매/플레이를 했는지 정보의 수치화 그렇다면 이 정보를 어떻게 수치화하고 정규화할 수 있을까? 평균중심화는 별로 의..

추천시스템 14 - 아이템-아이템 협업필터링

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 서론 기본적으로 사용자-사용자 필터링은 잘 동작 한다. 하지만 데이터가 부족할때는 예측값을 만들어내기 힘들다. 큰 시스템에서 사용자가 많다 해도, 공통점을 찾을 수 없는 사용자가 있다면 추천을 만들어내기 힘들다. 또한 평점을 잘 매기지 않는 사용자들에게도 추천을 만들기 힘들다. 이런 단점을 극복하기 위해 아이템-아이템 필터링이 고안되었다. 사용자보다는 여러 사람들이 평점을 매기는 아이템에 데이터가 더 많을 수 있다...

머신러닝 공부 8 - 분류 문제

머신러닝 본 포스팅은 Andrew Ng교수의 Machine Learning 코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/machine-learning 분류문제 X를 입력데이터, Y를 출력이라고 할 때, Y가 이산의 값인 문제를 분류문제라고 한다. 다음과 같은 예제들이 있다: 이메일이 스팸인지 아닌지 분류 온라인 거래가 사기인지 아닌지 분류 종양이 악성인지 양성인지 분류 이런 분류문제에서는 y값이 1이면 Positive, 0 이면 Negative로 분류하게 된다. 유방암예제) 악성종양예제를 살펴보자 위 데이터셋에 대한 출력값은 0/1로 나뉜다. 이런 데이터셋에서는, 회귀문제와 같이 데이터셋과 알맞는 직선을 그리면 안된다. 이런 문제를 푸는 방법은, 어떠한 임계값..

추천시스템 13 - 사용자-사용자 협업필터링

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 비개인적 추천 비개인적인 추천을 하려면 다음과 같은 수식을 사용하면 된다. $$S(u, i) = \frac{\sum_{v \in U} r_{vi}}{ |U|}$$ u - 현재 사용자 i - 아이템 S(u, i) - 예측값 U - 모든 사용자 |U| - 모든 사용자의 수 v - U에 속한 다른 사용자 $r_{ui}$ - 아이템에 대한 현재 사용자의 평점 사용자-사용자 추천 이 수식에 기반하여 사용자-사용자 추천을 계산..

추천시스템 11 - TFIDF

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems TFIDF TFIDF기법은 정보검색 분야에서 출발한 개녑이다. 정보검색과 관련된 개념을 자세히 설명하지는 않을것이지만, 정보검색에 TFIDF가 어떻게 쓰였는지 들여다 보도록 하자. 만약 기본적인 검색기능(태그 와 랭킹 기반)이 실패하면 어떻게할까? 특정 단어를 가진 문서를 모두 가져온다면, 너무 많을것이다. 어떠한 방식으로 랭킹을 정하는가? 두가지 요인을 고려해 볼 수 있다. 단어의 빈도는 중요한 요..

추천시스템 10 - 컨텐츠 기반 추천

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 안정적인 선호도로부터 시작 컨텐츠기반 추천에서는 컨텐츠의 속성들을 안정적인 선호도로 선정한다. 예) 뉴스 기술관련 뉴스, 대학관련 뉴스, 식당관련 뉴스 등 옷 면티, 파란색, 저가, 캐쥬얼 영화 톰 행크스, 우디 앨런, 코미디 호텔 24시간 프론트데스크, 룸서비스, Wifi, 수영장 핵심 아이디어 아이템들의 관련된 속성들을 사용해 모델링을 한다. 컨텐츠의 속성에 따라서 사용자의 선호도를 노출한다. 그..

추천시스템 9 - 비개인적 추천 코드예제

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 원본 코드 예제에서는 Excel로 코딩하게 되어있지만, 파이썬으로 코딩한 예제입니다. 1. 영화 평점¶ 문제: 평균 평점을 계산하고, 최상위 3개의 영화와 점수를 구하시오 먼저 Pandas 패키지를 import 하겠습니다. In [94]: import pandas as pd movies_df = pd.read_csv('./HW1-data.csv') movies_df.head() Out[94]: Use..

추천시스템 8 - 제품연관성

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 서론 아마존과 같은 쇼핑사이트에서 상품을 볼 때, 연관성 있는 제품을 추천해 주는것을 볼 수 있다. 비개인적 추천은 추천을 하기 위한 맥락이 부족하다. 연관제품 추천은 이런 상황에서 매우 구체적인 맥락을 만들어준다. 사용자가 현재 보고있는 제품을 맥락으로 보고 관련 제품을 추천할 수 있기 때문이다. 단기적, 맥락적 개인화 이러한 추천은 긴 라이프사이클을 가지지 않는 추천이고, 지금 사용자가 무엇을 하..

추천시스템 7 - 인구통계

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems 서론 기술통계의 방법론(인기도, 평균 등)을 사용하면 쉽게 일반적인 추천을 만들어 낼 수 있지만, 개인화가 없다면 추천법이 효과적이지 않을 수 밖에 없다. 첫번째 개인화의 방법으로 약한 개인화의 방법인 인구통계적인 방법론을 이야기 할것이다. 인구통계 인기도는 개개인의 선호도가 전혀 반영되어 있지 않은 정보이다. 예를 들어 빌보드에 인기있는 음악들은 젊은 사람들의 선호도로 가득 차 있을 수 밖에 없다...

머신러닝 공부 7 - 정규방정식

머신러닝 본 포스팅은 Andrew Ng교수의 Machine Learning 코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/machine-learning 정규방정식 정규방정식 이란 특정 선형 문제에서 파라미터값인 θ를 더 쉽게 풀 수 있게 만들어주는 방법이다. 지금까지의 경사하강법에서는, Global Minimum을 찾기 위해 많은 스텝들을 밟아야 했다. 하지만 정규방정식은 이것을 분석적으로 풀 수 있게 해준다. 경사하강법의 많은 반복을 하기보다, 분석적으로 θ값의 해를 구하면 한번에 구할 수 있다는 말이다. 예제) 변수가 많지 않은 아래 2차 방정식 수식을 보자. 위의 수식을 minimize하려면 미분 값을 구한 다음, =0을 하고 θ로 풀면 된다. 하지만 많은..

728x90
반응형