아카이브/추천시스템(2019)

추천시스템 7 - 인구통계

Johnny Yoon 2019. 6. 29. 17:21
728x90
반응형

추천시스템

본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다.

https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems

 

서론

기술통계의 방법론(인기도, 평균 ) 사용하면 쉽게 일반적인 추천을 만들어 있지만,

개인화가 없다면 추천법이 효과적이지 않을 밖에 없다.

첫번째 개인화의 방법으로 약한 개인화의 방법인 인구통계적인 방법론을 이야기 할것이다.

 

인구통계

인기도는 개개인의 선호도가 전혀 반영되어 있지 않은 정보이다.

예를 들어 빌보드에 인기있는 음악들은 젊은 사람들의 선호도로 가득 있을 밖에 없다.

따라서 차트에는 내가 원하는 음악이 없을 수도 있다.

조금의 개인화를 반영하기 위해서는, 전체를 여러 집단(cohort)으로 나누어 있을 것이다.

  • 나이
  • 성별
  • 인종/민족성
  • 사회경제적 상태
  • 지역

위의 정보 외에도 인구통계적인 방법은 아니지만, 쉽게 예상 가능한 범주 내에 있는 집단을 만들 있는 정보들을 사용할 있을 것이다.

 

그렇다면 정보를 통해서 어떻게 추천할 있을까?

먼저 추천의 대상이 어떤 인구통계적인 정보가 있고, 그것이 아이템들과 어떤 연관성이 있는지를 알아봐야 한다.

  • 직관적으로 바로 있는 정보는 많이 없을 있다.
  • 따라서 정보를 가공해 추론가능한 정보를 모아야 한다.
  • 예를 들어 나이를 숫자별로 사용하는 것이 아니라, 그룹으로 만들어 나이대 별로 사용해야 할것이다.
  • 우편번호는 사회경제적 정보나, 도시/시골 여부, 또는 다수의 인종 등의 정보로 가공될 있을것이다.

또한 데이터를 인구통계적으로 탐색하는 것이 많은 도움이 있다.

  • 산점도나 다른 도표를 만드는
  • 상호관계를 찾아내는

 

기술통계에서 인구통계로

  1. 인구통계적인 정보를 어떻게 사용할지 결정했다면, 기술통계에서 찾은 정보들을 인구통계적 방법으로 세분화를 시작해야 한다.
    • 남성/여성이 관심을 보이는 물건인가?
    • 혼합요인배치 - 40~60대의 남성이 좋아하는 물건인가?
  1. 여러가지 인구통계적 방법이 고려되었다면, 여러가지 회귀분석적 모델을 고려한다.
    • 회귀 모델로 여러 정보를 예측할 있다.
    • 평점이나 인기도 등은 다중회귀를 사용할 있다.
    • 구매이력같은 정보는 로지스틱 회귀를 사용해 분류모델을 만들 있다.

 

주의점

고려하지 못한 인구통계적 정보에 대해서 주의해야 한다.

  • 사용자 전부의 선호도 일수도 있다.
  • 새로운 사용자의 인구통계적 정보는 모를 수도 있다.
  • 오래된 사용자 (정보가 많은 사용자) 인구통계적 정보가 소용 없을 있다.
  • 인구통계적 정보가 적용되지 않은 사용자들끼리 묶을 있다.

사용자에 대한 정보를 얻는것이 제일 중요한점이다.

  • 가입할때의 정보를 활용해야 한다.
  • 설문조사의 정보도 유용하다.
  • 많은 경우, 행동패턴에서 유추해 수도 있다.

 

인구통계의 장단점

인구통계가 먹히는 이유는, 특정 아이템들은 특정 인구통계의 그룹을 타겟팅해서 만들어졌기 때문이다.

  • 특정 TV채널들은 특정 연령대에게 먹힌다.
  • 면도기 개인적 아이템들은 남성에게 먹힌다.

하지만 잘못된 인구통계적 추론이 행해지면, 역효과를 있다.

  • 남성용품을 여성에게 추천하는 경우
  • 어린 학생들에게 오래된 노래를 추천하는 경우

 

728x90
반응형