728x90
반응형

데이터사이언스/데이터사이언스 3

데이터사이언스 - (3) 표본

데이터사이언스 표본 (sample) 대개의 경우 모집단을 정확하기 알 수 있는 길은 없다. 또한 모집단을 정확히 밝혀낸다고 해도, 크게 의미있는 결과를 얻어내는 것은 드물것이다. 따라서 분석이나 추론을 할 때, 모집단을 잘 반영한 표본집단을 추출한다. 추출된 표본은 편향을 최소화하여 모집단을 잘 반영해야만, 실제 분석과 추론이 효과적으로 이루어질 수 있다. 표본(sample)이란 큰 데이터의 집합으로부터 추출한 더 작은 데이터의 집합이다. 모집단(population)이란 표본이 추출된 큰 데이터의 집합을 말한다. 표본추출 (sampling) 표본을 추출할 때 중요한 것은 표본이 모집단을 잘 반영해야 한다는 것이다. 이를 통계적 대표성이라고 하는데, 대표성을 띄지 못하는 표본을 표본편향(sample bia..

데이터사이언스 - (2) 기술통계

데이터사이언스 기술통계(Descriptive Statistics)란 데이터를 통계적으로 설명할 수 있는 기법들을 말한다. 많은 경우 분석에 사용될 데이터는 많은 양의 데이터를 포함하고 있기 때문에, 이를 간단하게 설명해주고 데이터의 집합의 특성을 알아낼 지표가 필요하다. 이 때 가장 기초적으로 사용되는 대표값 들을 사용해 설명하는 것이 기술통계이다. 경향성 데이터의 경향성을 살펴보기 위한 가장 기초적인 값들은 다음과 같다. 이들은 기초적인 대표값들인 동시에, 데이터를 특정 방법으로 요약하는 값들이기도 하다. 이러한 값들은 또한 측정지표(metric)이라고도 불린다. 평균 (mean, average) 모든 값의 합을 갯수로 나눈 값. 통상적으로 평균은 그리스어 $\mu$로 표기된다. 각 데이터를 $x$, ..

데이터사이언스 - (1) 데이터의 요소

데이터사이언스 데이터란 현실에서 수집 가능한 모든 정보의 집합을 말한다. 기존에는 데이터(data)와 정보(information)를 나누어, 가공되기 전의 상태를 데이터, 가공후의 상태를 정보라고 지칭하였다. 하지만, 빅데이터의 영향으로 데이터 자체가 의미를 갖는 상황이 생겨났기 때문에, 최근에는 두가지를 분류해서 정의하지 않는다. 데이터의 종류 데이터분석에서 활용되는 데이터는 둘로 나뉜다. 정형데이터와 정형화되지 않은 비정형데이터이다. 정형데이터 정형화된 데이터란 우리가 흔히 알고있는 테이블로 표현 가능한 데이터이다. 대개는 한번의 정제 과정을 거쳐 테이블(데이터베이스)로 적제 되거나, 개발자나 DBA가 정의한 스키마로 저장될 수 있도록 유도된다. 비정형데이터 비정형데이터란 정형화되지 않은 모든 데이터..

728x90
반응형