728x90
반응형

데이터사이언스 23

데이터사이언스 - (4) 분포

데이터사이언스 분포 (distribution) 분포란 데이터의 값이 어떠한 형태로 퍼져 있는지에 대한 정보이다. 표본분포 (sampling distribution) 표본 분포란 모집단에서 얻은 샘플 데이터가 나타내는 형태에 대한 정보이다. 좋은 표본의 분포는 모집단의 분포를 크게 반영한다. 중심극한정리 (central limit theorem) 중심극한정리는 표본의 크기가 커질 수록 표본분포는 정규분포를 따르는 경향이 있다는 이론이다. 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하다면 정규분포를 따른다고 가정한다. 신뢰구간 (confidence interval) 신뢰구간이란 모수가 실제로 포함될 것으로 예측되는 범위이다. 보통 신뢰구간은 어떠한 큰 수치(예, 95% 혹은 90%)로 표현이 된다. ..

카테고리 없음 2021.01.30

데이터사이언스 - (3) 표본

데이터사이언스 표본 (sample) 대개의 경우 모집단을 정확하기 알 수 있는 길은 없다. 또한 모집단을 정확히 밝혀낸다고 해도, 크게 의미있는 결과를 얻어내는 것은 드물것이다. 따라서 분석이나 추론을 할 때, 모집단을 잘 반영한 표본집단을 추출한다. 추출된 표본은 편향을 최소화하여 모집단을 잘 반영해야만, 실제 분석과 추론이 효과적으로 이루어질 수 있다. 표본(sample)이란 큰 데이터의 집합으로부터 추출한 더 작은 데이터의 집합이다. 모집단(population)이란 표본이 추출된 큰 데이터의 집합을 말한다. 표본추출 (sampling) 표본을 추출할 때 중요한 것은 표본이 모집단을 잘 반영해야 한다는 것이다. 이를 통계적 대표성이라고 하는데, 대표성을 띄지 못하는 표본을 표본편향(sample bia..

데이터사이언스 - (2) 기술통계

데이터사이언스 기술통계(Descriptive Statistics)란 데이터를 통계적으로 설명할 수 있는 기법들을 말한다. 많은 경우 분석에 사용될 데이터는 많은 양의 데이터를 포함하고 있기 때문에, 이를 간단하게 설명해주고 데이터의 집합의 특성을 알아낼 지표가 필요하다. 이 때 가장 기초적으로 사용되는 대표값 들을 사용해 설명하는 것이 기술통계이다. 경향성 데이터의 경향성을 살펴보기 위한 가장 기초적인 값들은 다음과 같다. 이들은 기초적인 대표값들인 동시에, 데이터를 특정 방법으로 요약하는 값들이기도 하다. 이러한 값들은 또한 측정지표(metric)이라고도 불린다. 평균 (mean, average) 모든 값의 합을 갯수로 나눈 값. 통상적으로 평균은 그리스어 $\mu$로 표기된다. 각 데이터를 $x$, ..

데이터사이언스 - (1) 데이터의 요소

데이터사이언스 데이터란 현실에서 수집 가능한 모든 정보의 집합을 말한다. 기존에는 데이터(data)와 정보(information)를 나누어, 가공되기 전의 상태를 데이터, 가공후의 상태를 정보라고 지칭하였다. 하지만, 빅데이터의 영향으로 데이터 자체가 의미를 갖는 상황이 생겨났기 때문에, 최근에는 두가지를 분류해서 정의하지 않는다. 데이터의 종류 데이터분석에서 활용되는 데이터는 둘로 나뉜다. 정형데이터와 정형화되지 않은 비정형데이터이다. 정형데이터 정형화된 데이터란 우리가 흔히 알고있는 테이블로 표현 가능한 데이터이다. 대개는 한번의 정제 과정을 거쳐 테이블(데이터베이스)로 적제 되거나, 개발자나 DBA가 정의한 스키마로 저장될 수 있도록 유도된다. 비정형데이터 비정형데이터란 정형화되지 않은 모든 데이터..

하둡 2.0 튜토리얼 - (7) 아파치 하이브 설치

하이브 하둡은 자바 기반으로 되어있습니다. 그리고 파이썬이나 루비와 같은 스크립트 언어로도 접근이 가능합니다. 하지만 보통 데이터를 만지는 사람들은 기존 RDBMS를 만지던 데이터 분석가들이나 DBA에 익숙한 사람들일 것입니다. 이러한 문제 때문에 페이스북에서 하이브를 개발하게 되었고, 지금은 아파치의 정식 프로젝트가 되었습니다. 설치 하이브를 설치해 보도록 하겠습니다. 다음 링크로 설치하거나 아래 wget으로 설치하신 뒤 scp로 doop01기기로 전송하겠습니다. https://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz > wget https://archive.apache.org/dist/hive/hive-2.1.1/apa..

하둡 2.0 튜토리얼 - (6) 얀 명령어

Yarn 얀은 하둡 2.0에서 새로 도입된 시스템으로 Yet Another Resource Manager의 약자입니다. 하둡 1.0에서 클러스터의 마스터노드가 모든 기기들의 리소스 관리를 했지만, 이것이 부족하다고 판단되어 개발된 시스템입니다. 또한 하둡 1.0에서의 마스터노드에 장애가 나면 모든 HDFS의 워커노드 및 데이터노드를 사용할 수 없게 되기 때문에 취약점이 발생합니다. 마스터노드의 장애로 인해 모든 시스템이 쓸모 없어져버리는 것을 SPOF (Single Point of Failiure)라고 합니다. 리소스매니저 얀은 리소스매니저라는 시스템을 내부적으로 사용합니다. 리소스매니저는, 또 컨테이너라는 개념을 활용하는데 이 컨테이너는 리소스의 집합체 입니다. 시스템 입장에서의 리소스란 당연히 CPU..

하둡 2.0 튜토리얼 - (4) 하둡 실행

하둡 실행 하둡을 실행하기 위해서는 앞서 했던 설정파일들을 오타 없이 잘 작성하셔야 합니다. (저는 한글자 오타 때문에 고생을 많이 했습니다.) 무언가 실행이 잘 되지 않을때는 꼭 로그파일들을 확인하시기 바랍니다. 하둡을 실행하기 위한 프로세스는 다음과 같습니다: 주키퍼 포맷 3개의 저널노드 실행 Active 네임노드 실행 Standby 네임노드 실행 주키퍼 장애 컨트롤러 (zkfc)실행 데이터노드 실행 얀 클러스터 실행 히스토리서버 실행 alias등록 먼저 하둡 실행 및 운영을 위해 미리 편리한 alias들을 등록해두겠습니다. .bashrc 파일을 열어 다음과같은 alias들을 등록해줍니다. alias hadoop="~/hadoop/sbin/hadoop-daemon.sh" alias hdfs="~/ha..

하둡 2.0 튜토리얼 - (3) 하둡 설치

하둡 설치 아래 튜로리얼은 hadoop 1.x와 관련된 파일인 hadoop디렉토리와 hadoop-data디렉토리를 삭제한 뒤 진행됩니다. 하둡 2.7 다운로드 먼저 하둡2의 특정 버전을 다운로드 받겠습니다. 하둡은 이미 3.x이상의 버전이 출시되고 있기 때문에 특정 버전들만 공식적으로 나와있습니다. 우리가 다운로드할 2.7.2버전은 2.7.6버전으로 stable release되어있고 2.7.2버전은 아카이브 되어있습니다. 따라서 아래 링크를 통해 다운받아 주겠습니다. https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 직접 링크로 다운받으셔도 되고 wget명령어를 이용하셔도 됩니다. > wget https://arc..

하둡 2.0 튜토리얼 - (1) 프로토버프 설치

하둡 2.0 이제 하둡 2버전으로 넘어가보도록 하겠습니다. 먼저 설치를 진행할 것인데요, Virtual Box VM과 Java가 모두 설치되었다고 가정하고 진행합니다. 해당 설치 내용은 아래 두개의 포스팅에서 찾아볼 수 있습니다. https://jyoondev.tistory.com/32 https://jyoondev.tistory.com/34 프로토콜 버퍼 프로토콜버퍼란 (이하 프로토버프, Protobuf) 구글이 개발한 데이터전송 방식(규격)입니다. 다른말로는 직렬화 라이브러리 라고도 하죠. 우리가 흔히 알고있는 직렬화/규격 포맷은 json과 xml이 있습니다. 프로토버프는 json이나 xml보다 크기가 작고 성능이 좋아 하둡에서 채택해 사용하게 되었습니다. 이를 설치하기 위해 구글의 깃허브 페이지로 ..

하둡 1.0 튜토리얼 - (16) 조인

조인 RDBMS에서의 조인이란 두개의 테이블을 한개(혹은 여러개)의 키값을 기준으로 합치는 작업입니다. 맵리듀스를 사용해 이전에 사용했던 항공데이터와 다른 데이터를 조인해 보겠습니다. 데이터 다운로드 먼저 데이터를 받아야합니다. 다음 명령어를 사용하시면 다운받을 수 있고, > wget http://stat-computing.org/dataexpo/data/carriers.csv 다음 링크를 가셔도 다운 받을 수 있습니다. http://stat-computing.org/dataexpo/2009/carriers.csv 데이터 정제 항공 데이터의 첫줄을 없애주었듯이 이 데이터도 없애주겠습니다. 아래 커맨드를 입력하면 첫줄과 큰다옴표가 데이터에서 사라지게 됩니다. > perl -p -i -e 's/"//g' c..

빅데이터/하둡 2019.07.19
728x90
반응형