데이터사이언스
표본 (sample)
대개의 경우 모집단을 정확하기 알 수 있는 길은 없다.
또한 모집단을 정확히 밝혀낸다고 해도, 크게 의미있는 결과를 얻어내는 것은 드물것이다.
따라서 분석이나 추론을 할 때, 모집단을 잘 반영한 표본집단을 추출한다.
추출된 표본은 편향을 최소화하여 모집단을 잘 반영해야만,
실제 분석과 추론이 효과적으로 이루어질 수 있다.
표본(sample)이란 큰 데이터의 집합으로부터 추출한 더 작은 데이터의 집합이다.
모집단(population)이란 표본이 추출된 큰 데이터의 집합을 말한다.
표본추출 (sampling)
표본을 추출할 때 중요한 것은 표본이 모집단을 잘 반영해야 한다는 것이다.
이를 통계적 대표성이라고 하는데,
대표성을 띄지 못하는 표본을 표본편향(sample bias)을 가진 표본이라고 말한다.
표본추출에는 대표적으로 두가지 방법이 있다.
랜덤표본추출 (random sampling)
- 모집단에서 무작위로 표본을 추출하는 것을 말한다.
- 모든 데이터는 같은 확률로 추출된다.
층화표본추출 (stratified sampling)
- 모집단을 어떠한 기준의 층으로 나누고, 각 층에서의 랜덤표본추출을 진행한다.
- 예) 경기도와 강원도는 인구수가 다르기 때문에, 지역별 특성을 보려면 각 도에서 랜덤표본추출을 할 필요가 있다.
랜덤표본추출은 아래와 같이 두가지로 나뉠 수 있다.
복원추출 (sampling with replacement)
- 표본을 추출할 떄 중복을 허용하는 것을 말한다.
비복원추출 (sampling without replacement)
- 표본을 추출할 떄 중복을 허용하지 않는것을 말한다
부트스트랩
머신러닝을 공부한 사람이라면 부트스트래핑(bootstrapping)에 대해서 많이 들어봤을 것이다.
부트스트랩이란 여러번의 복원추출을 진행하는 것이다.
이는 여러개의 모델의 성능을 함께 발휘하기 위해 주로 사용된다.
각각의 표본은 복원추출이기 때문에 중복은 허용된다.
'데이터사이언스 > 데이터사이언스' 카테고리의 다른 글
데이터사이언스 - (2) 기술통계 (0) | 2021.01.04 |
---|---|
데이터사이언스 - (1) 데이터의 요소 (0) | 2021.01.04 |