데이터사이언스
데이터란 현실에서 수집 가능한 모든 정보의 집합을 말한다.
기존에는 데이터(data)와 정보(information)를 나누어,
가공되기 전의 상태를 데이터, 가공후의 상태를 정보라고 지칭하였다.
하지만, 빅데이터의 영향으로 데이터 자체가 의미를 갖는 상황이 생겨났기 때문에,
최근에는 두가지를 분류해서 정의하지 않는다.
데이터의 종류
데이터분석에서 활용되는 데이터는 둘로 나뉜다.
정형데이터와 정형화되지 않은 비정형데이터이다.
정형데이터
정형화된 데이터란 우리가 흔히 알고있는 테이블로 표현 가능한 데이터이다.
대개는 한번의 정제 과정을 거쳐 테이블(데이터베이스)로 적제 되거나,
개발자나 DBA가 정의한 스키마로 저장될 수 있도록 유도된다.
비정형데이터
비정형데이터란 정형화되지 않은 모든 데이터를 가리킨다.
사물인터넷(IoT)로부터 받아진 데이터가 정제 과정을 거치지 않은상태,
혹은 이미지나 자연어(문서)와 같이 어떠한 형식으로 정의하기 힘든 데이터를 말한다.
정형데이터의 종류
정형데이터는 성질에 따라 다음과 같은 형태로 나뉠 수 있다.
연속형 (continuous)
- 일정 범위 안의 어떤 실수값이든 가능한 형태의 데이터이다.
- 실수형, 수치형 데이터라고도 한다.
- 범위안의 실수값이면 어떠한 값이든 가능하기 때문에, 무수히 많다.
- 예) 온도, 속도 등
이산형 (discrete)
- 정수형 값만 취할 수 있는 데이터를 말한다.
- 정수형, 혹은 횟수 데이터라고도 한다.
- 예) 주문수, 인원수 등
범주형 (categorical)
- 범위가 정해진 값의 데이터 중, 연속형이지 않은 데이터이다.
- 범주형 데이터 사이에는 보통 순서가 존재하지 않는다.
- 예) 서울의 행정구 (강남구, 서초구, 송파구 등)
이진 (binary)
- 범주형 데이터 중 두가지(0 혹은 1)로 표현 가능한 데이터이다.
- 참 혹은 거짓과, 0 혹은 1과 같이 표현 가능하다.
- 예) 완료 여부, 특정 값의 존재 여부 등
순서형 (ordinal)
- 범주형 데이터가 순서를 갖는 형태의 데이터이다.
- 각 정수형 데이터가 일정한 순위를 갖게 된다.
- 예) 평점(1, 2, 3, 4, 5), 랭킹(1위 ~ 10위) 등
정형데이터의 요소
정형데이터를 표현하는 방법은 여러가지가 있다.
특히 통계나 데이터 분야에서 여러 다른 용어가 혼재되어 있는데,
이는 다음과 같이 정리해 볼 수 있다
.
테이블 (table)
- 테이블 구조로 행(row)과 열(column)이 갖추어진 구조를 말한다.
- 여러 프로그래밍 언어에서는 데이터 프레임 (data frame) 이라고도 한다.
피쳐 (feature)
- 테이블의 하나의 열(column)을 뜻한다.
- 특성, 속성, (예측)변수라는 용어로 쓰이기도 한다.
- 각 피쳐는 위에서 이야기한 정형데이터의 종류 중 하나에 해당한다.
레코드 (record)
- 테이블의 하나의 행(row)을 뜻한다.
- 보통 프로그램에서 ORM에 해당하는 하나의 객체(object)를 뜻하기도 한다.
- 기록, 관측, 샘플, 데이터포인트 등의 용어로도 쓰인다.
결과 (outcome)
- 레코드를 통해 이끌어낼 수 있는 값을 뜻한다.
- 종속변수, 응답, 출력 등의 용어로도 쓰인다.
- 분석의 결과로서는 예측, 실제 결과로서는 목표로 나뉠 수 있다.
예측 (prediction)
- 분석으로서 이끌어낸의 결과값을 뜻한다.
- 일반적으로는 하나의 레코드는 하나의 예측값을 낸다.
- 하나의 시퀀스(레코드의 집합)가 하나의 예측값을 내는 경우도 존재한다.
- 예측값은 목표(target)과 대조되어 머신러닝 모델 학습에 사용된다.
목표 (target)
- 레코드의 실제 결과값을 뜻한다.
- 레이블(label), 종속변수 등의 용어로도 사용된다.
- 목표값은 예측(prediction)값과 대조되어 모델 학습에 사용된다.
비정형데이터의 예
위에서 다룬 정형데이터와는 다른 비정형 데이터의 종류를 알아본다.
시퀀스 (sequence)
시퀀스는 정형데이터의 하나의 레코드가 의미를 갖는것이 아닌,
여러 레코드의 집합이 의미를 갖는 데이터를 말한다.
이 레코드의 집합은 각각 다른 길이를 가질 수 있다.
예를 들어 주식의 하루치 기록을 통해 상승/하락을 예측한다고 한다면,
주식의 시간단위 기록은 하나의 레코드에 해당할 수 있지만,
시간단위 레코드 하나 만으로는 목표값인 상승/하락에 영향을 줄 수 없다.
다른 예로는, 사람이 돌아다닌 gps기록을 예로 들 수 있다.
gps기록으로 다음 방문할 장소를 예측한다면,
각기 다른 길이의 gps기록의 집합이 하나의 목표값을 갖게 되는 것이다.
자연어/텍스트
텍스트 데이터는 많은 양의 문자(character)의 집합이다.
문장 또는 문서와 같이 다른 길이의 데이터의 집합이 하나의 의미를 갖게 되는 경우가 많다.
이미지/영상
이미지 역시 여러 다른 길이의 픽셀(pixel)의 집합이다.
또한 이미지의 집합으로서 영상이 될 수 있다.
그래프/네트워크
그래프는 컴퓨터 공학에서 사용되는 자료구조(data-structure)이다.
노드(node)와 엣지(edge)로 구성되어 있고, 노드는 엣지로서 관계를 맺는다.
SNS에서의 친구관계도와 같은 어떠한 추상적인 개념을 표현하는데 주로 쓰인다.
'데이터사이언스 > 데이터사이언스' 카테고리의 다른 글
데이터사이언스 - (3) 표본 (0) | 2021.01.06 |
---|---|
데이터사이언스 - (2) 기술통계 (0) | 2021.01.04 |