추천시스템
본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다.
https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems
서론
기술통계의 방법론(인기도, 평균 등)을 사용하면 쉽게 일반적인 추천을 만들어 낼 수 있지만,
개인화가 없다면 추천법이 효과적이지 않을 수 밖에 없다.
첫번째 개인화의 방법으로 약한 개인화의 방법인 인구통계적인 방법론을 이야기 할것이다.
인구통계
인기도는 개개인의 선호도가 전혀 반영되어 있지 않은 정보이다.
예를 들어 빌보드에 인기있는 음악들은 젊은 사람들의 선호도로 가득 차 있을 수 밖에 없다.
따라서 그 차트에는 내가 원하는 음악이 없을 수도 있다.
조금의 개인화를 반영하기 위해서는, 전체를 여러 집단(cohort)으로 나누어 볼 수 있을 것이다.
- 나이
- 성별
- 인종/민족성
- 사회경제적 상태
- 지역
위의 정보 외에도 인구통계적인 방법은 아니지만, 쉽게 예상 가능한 범주 내에 있는 집단을 만들 수 있는 정보들을 사용할 수 있을 것이다.
그렇다면 이 정보를 통해서 어떻게 추천할 수 있을까?
먼저 추천의 대상이 어떤 인구통계적인 정보가 있고, 그것이 아이템들과 어떤 연관성이 있는지를 알아봐야 한다.
- 직관적으로 바로 알 수 있는 정보는 많이 없을 수 있다.
- 따라서 정보를 가공해 추론가능한 정보를 모아야 한다.
- 예를 들어 나이를 숫자별로 사용하는 것이 아니라, 그룹으로 만들어 나이대 별로 사용해야 할것이다.
- 우편번호는 사회경제적 정보나, 도시/시골 여부, 또는 다수의 인종 등의 정보로 가공될 수 있을것이다.
또한 데이터를 인구통계적으로 탐색하는 것이 많은 도움이 될 수 있다.
- 산점도나 다른 도표를 만드는 것
- 상호관계를 찾아내는 것 등
기술통계에서 인구통계로
- 인구통계적인 정보를 어떻게 사용할지 결정했다면, 기술통계에서 찾은 정보들을 인구통계적 방법으로 세분화를 시작해야 한다.
- 남성/여성이 관심을 보이는 물건인가?
- 혼합요인배치 - 40~60대의 남성이 좋아하는 물건인가?
- 여러가지 인구통계적 방법이 고려되었다면, 여러가지 회귀분석적 모델을 고려한다.
- 회귀 모델로 여러 정보를 예측할 수 있다.
- 평점이나 인기도 등은 다중회귀를 사용할 수 있다.
- 구매이력같은 정보는 로지스틱 회귀를 사용해 분류모델을 만들 수 있다.
주의점
고려하지 못한 인구통계적 정보에 대해서 주의해야 한다.
- 사용자 전부의 선호도 일수도 있다.
- 새로운 사용자의 인구통계적 정보는 모를 수도 있다.
- 오래된 사용자 (정보가 많은 사용자)는 인구통계적 정보가 소용 없을 수 도 있다.
- 인구통계적 정보가 적용되지 않은 사용자들끼리 묶을 수 도 있다.
사용자에 대한 정보를 얻는것이 제일 중요한점이다.
- 가입할때의 정보를 활용해야 한다.
- 설문조사의 정보도 유용하다.
- 많은 경우, 행동패턴에서 유추해 낼 수도 있다.
인구통계의 장단점
인구통계가 잘 먹히는 이유는, 특정 아이템들은 특정 인구통계의 그룹을 타겟팅해서 만들어졌기 때문이다.
- 특정 TV채널들은 특정 연령대에게 잘 먹힌다.
- 면도기 등 개인적 아이템들은 남성에게 잘 먹힌다.
하지만 잘못된 인구통계적 추론이 행해지면, 역효과를 낼 수 있다.
- 남성용품을 여성에게 추천하는 경우
- 어린 학생들에게 오래된 노래를 추천하는 경우 등
'아카이브 > 추천시스템(2019)' 카테고리의 다른 글
추천시스템 9 - 비개인적 추천 코드예제 (0) | 2019.06.29 |
---|---|
추천시스템 8 - 제품연관성 (0) | 2019.06.29 |
추천시스템 6 - 기술통계 (0) | 2019.06.28 |
추천시스템 5 - 추천 알고리즘 (0) | 2019.06.27 |
추천시스템 4 - 추천의 분류 (0) | 2019.06.27 |