머신러닝
본 포스팅은 Andrew Ng교수의 Machine Learning 코세라 강좌를 정리한 내용입니다.
https://www.coursera.org/learn/machine-learning
복습
지도학습이란,
데이터셋에 대한 "정답" 즉 x값(혹은 여러 x값들, x1 x2 x3 …)에 대한 y값이 주어지고,
그 데이터셋을 학습하는 것이다.
회귀문제
연속적인 데이터에 대해서, 새로운 데이터 (x값)이 들어왔을 때,
실제 값(y값)을 예측하는 문제
집값예측 예제)
다음은 오레간주 포트랜드의 집값 데이터이다.
X축에는 집의 사이즈가, Y축에는 집의 가격이 $1000 단위로 나와있다.
학습데이터
지도학습에서는 학습데이터, 즉 Training data가 주어진다.
이 문제에서의 Training data는 실제 주어진 집값들이다.
이 데이터를 살펴보기 위해서 다음과같은 변수들을 정의한다:
- Training Data의 총 수는 m
- 입력 변수(특성)들은 x
- 출력 변수(타깃값)들은 y
- 한개의 Training 값은 (x, y)
- i번째 Training값은 (xi, yi)
만약 데이터에 집이 47개가 있다면 m = 47이 된다.
따라서 Training Data내의 x와 y의 갯수도 47개가 된다.
각 Training값에서 i번째 값은 (x1 y1) = (2104, 60), (x2, y2) = (1416, 232) ...,와 같이 된다.
학습과정
학습과정은 먼저, Training Data를 가지고 학습 알고리즘에 집어 넣게 된다.
그 과정에서 학습 알고리즘은 가설함수 h를 가지고, 출력을 내게 된다.
가설함수 h는 x를 y에 연결시키는 역할을 한다.
다시말해 h는 학습데이터에서 x와 y값을 보고,
새로운 x값이 들어왔을 때 그 x값에 대한 y값을 예측해주는 역할을 하는것이다.
가설함수
그렇다면 h는 어떻게 정의를 할까?
h0(x) = θ0 + θ1x
H는 h(x)로도 표현이 된다.
이 수식은 선형(1차) 함수이다.
위 도표에서 x들이 데이터라고 할 때,
이 x들을 가장 잘 표현하는 1차 선형 함수가 h가 되는것이다.
이 선형함수를 찾아 값을 예측하는것이 선형회귀이다.
'데이터사이언스 > 머신러닝' 카테고리의 다른 글
머신러닝 공부 6 - 경사하강법 트릭 (0) | 2019.06.29 |
---|---|
머신러닝 공부 5 - 다중 선형 회귀 (0) | 2019.06.27 |
머신러닝 공부 4 - 경사하강법 (0) | 2019.06.26 |
머신러닝 공부 3 - 비용함수 (0) | 2019.06.25 |
머신러닝 공부 1 - Intro, 지도학습, 비지도학습 (0) | 2019.06.23 |