데이터사이언스
기술통계(Descriptive Statistics)란 데이터를 통계적으로 설명할 수 있는 기법들을 말한다.
많은 경우 분석에 사용될 데이터는 많은 양의 데이터를 포함하고 있기 때문에,
이를 간단하게 설명해주고 데이터의 집합의 특성을 알아낼 지표가 필요하다.
이 때 가장 기초적으로 사용되는 대표값 들을 사용해 설명하는 것이 기술통계이다.
경향성
데이터의 경향성을 살펴보기 위한 가장 기초적인 값들은 다음과 같다.
이들은 기초적인 대표값들인 동시에, 데이터를 특정 방법으로 요약하는 값들이기도 하다.
이러한 값들은 또한 측정지표(metric)이라고도 불린다.
평균 (mean, average)
- 모든 값의 합을 갯수로 나눈 값.
- 통상적으로 평균은 그리스어 $\mu$로 표기된다.
- 각 데이터를 $x$, 전체의 갯수를 $n$으로 표기할 떄, 평균은 다음과 같다:
- $\mu = \frac{\sum_i^n x_i}{n}$
가중평균 (weighted mean, weighted average)
- 각각의 값에 가중치를 부여한 값의 합하고, 가중치의 합으로 나눈 값.
- 특정 값이 다른 값들보다 중요할 때 사용된다.
- 각 데이터를 $x$, 전체의 갯수를 $n$, 각 가중치를 $w$로 표기할 떄, 가중평균은 다음과 같다:
- $\mu_w = \frac{\sum_i^n w_i x_i}{\sum_i^n w_i}$
중앙값 (median)
- 모든 데이터를 순서대로 나열하였을 때 중앙에 위치한 값.
- 50번쨰 백분위수(percentile), 2번째 사분위수(quartile).
- 보통 평균은 이상치(outlier)에 영향을 받지만, 중앙값은 그렇지 않다.
- 따라서 중앙값을 평균보다 "robust하다"라고 표현하기도 한다.
이상치 (outlier)
- 데이터 대부분의 값들과 극단적으로 다른 값.
최대값 (maximum, max)
- 데이터 중 가장 큰 값을 의미.
최소값 (minimum, min)
- 데이터 중 가장 작은 값을 의미.
최빈값 (mode)
- 데이터 중 가장 많이 나타나는 값을 의미.
- 예) ${1, 2, 2, 3, 2, 4, 5, 5}$ 에서는 $2$가 최빈값.
변이 추정
변이(variability)란 데이터가 얼마나 밀집되어 있는지 혹은 퍼져 있는지에 대한 정도를 나타낸다.
변이는 샘플 데이터의 특성을 통해 모수를 추정하기 위한 도구로 쓰이기도 하며,
랜덤(random)한 추정보다 더 나은 추정을 이끌어내기 위해 쓰인다.
편차 (deviation)
- 실제 값과 추정값의 차이.
- 오차 또는 잔차라고도 불린다.
분산 (variance)
- 평균과 편차를 제곱한 값들을 더하고, n-1로 나눈 값이다.
- 평균제곱오차(mean absolute error)이라고도 불린다.
- 통상적으로 분산은 표준편차($\sigma$)의 제곱 즉 $\sigma^2$으로 표기된다.
- 각 데이터를 $x$, 평균을 $\mu$, 전체의 갯수를 $n$으로 표기할 때, 분산은 다음과 같다:
- $\sigma^2 = \frac{\sum(x - \mu)^2}{n-1}$
표준편차 (standard deviation)
- 분산의 제곱근이고, L2 규제(L2 norm) 또는 유클리드 규제(Euclidean norm)이라고도 불린다.
- 통상적으로 표준편차는 $\sigma$로 표기된다.
- 분산이나 표준편차를 구할 때, $n-1$을 쓰는 경우를 비편향된(unbiased) 추정,
- $n$을 쓰는 경우는 편향된(biased) 추정이라고 한다.
평균절대편차 (mean absolute deviation, MAD)
- 평균과 편차의 절대값의 평균.
- 데이터와 평균값의 차이에 절대값을 취한 뒤 평균을 구한 값.
- L1 규제(L1 norm) 또는 맨하탄 규제(Manhattan norm)이라고도 불린다.
중위절대편차 (median absolute deviation, MAD)
- 중앙값과 편차의 절대값의 중앙값.
- 데이터와 중앙값의 차이에 절대값을 취한 뒤 순서대로 늘어놓았을 때 중앙에 위치한 값.
- 보통 MAD의 표기는 중위절대편차를 의미할때가 더 많다.
순서통계
순서통계(order statistics)란 정렬된 데이터가 얼마나 퍼져있는지를 살펴보고,
이를 통해 데이터를 설명할 수 있는 통계적 방법이다.
범위 (range)
- 데이터의 최소값(min)과 최대값(max)의 차이
백분위수 (percentile)
- 데이터를 순서로 정렬했을 때, 0부터 100 사이의 특정 위치의 값을 말하는 용어이다.
- "20 백분위수"는 데이터 중 20번째로 큰 수를 의미한다.
- 하지만, 데이터의 집합의 갯수는 100보다 작을수도 있다.
- 중앙값은 "50 백분위수"이다.
사분위수 (qurtile)
- 데이터를 순서로 정렬했을 때, 25%(1사분위수, 1Q), 50%(2사분위수, 2Q), 75%(3사분위수, 3Q)되는 위치들을 말하는 용어이다.
- 중앙값은 2사분위수이다.
사분범위 (interquartile range, IQR)
- 25번째 백분위수(1사분위수)와 75번째 백분위수(3사분위수)의 차이를 알아보는 값이다.
- $IQR = Q3 - Q1$
- 이상치(outlier)를 제거할 때 쓰이는 방법 중 하나로 $1.5 * IQR$이 쓰인다.
'데이터사이언스 > 데이터사이언스' 카테고리의 다른 글
데이터사이언스 - (3) 표본 (0) | 2021.01.06 |
---|---|
데이터사이언스 - (1) 데이터의 요소 (0) | 2021.01.04 |