데이터사이언스 분포 (distribution) 분포란 데이터의 값이 어떠한 형태로 퍼져 있는지에 대한 정보이다. 표본분포 (sampling distribution) 표본 분포란 모집단에서 얻은 샘플 데이터가 나타내는 형태에 대한 정보이다. 좋은 표본의 분포는 모집단의 분포를 크게 반영한다. 중심극한정리 (central limit theorem) 중심극한정리는 표본의 크기가 커질 수록 표본분포는 정규분포를 따르는 경향이 있다는 이론이다. 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하다면 정규분포를 따른다고 가정한다. 신뢰구간 (confidence interval) 신뢰구간이란 모수가 실제로 포함될 것으로 예측되는 범위이다. 보통 신뢰구간은 어떠한 큰 수치(예, 95% 혹은 90%)로 표현이 된다. ..