데이터사이언스/머신러닝

머신러닝 공부 2 - 단일변수 선형회귀

_금융덕후_ 2019. 6. 25. 19:25
728x90
반응형

머신러닝

본 포스팅은 Andrew Ng교수의 Machine Learning 코세라 강좌를 정리한 내용입니다.

https://www.coursera.org/learn/machine-learning

 

복습

지도학습이란,

데이터셋에 대한 "정답" x(혹은 여러 x값들, x1 x2 x3 …) 대한 y값이 주어지고,

데이터셋을 학습하는 것이다.

 

회귀문제

연속적인 데이터에 대해서, 새로운 데이터 (x) 들어왔을 ,

실제 (y) 예측하는 문제

 

집값예측 예제)

다음은 오레간주 포트랜드의 집값 데이터이다.

X축에는 집의 사이즈가, Y축에는 집의 가격이 $1000 단위로 나와있다.

포트랜드의 집값 도표

학습데이터

지도학습에서는 학습데이터, Training data 주어진다.

문제에서의 Training data 실제 주어진 집값들이다.

포트랜드의 집값 학습데이터

데이터를 살펴보기 위해서 다음과같은 변수들을 정의한다:

  • Training Data 수는 m
  • 입력 변수(특성)들은 x
  • 출력 변수(타깃값)들은 y
  • 한개의 Training 값은 (x, y)
  • i번째 Training값은 (xi, yi)

만약 데이터에 집이 47개가 있다면 m = 47 된다.

따라서 Training Data내의 x y 갯수도 47개가 된다.

Training값에서 i번째 값은 (x1  y1) = (2104, 60), (x2, y2) = (1416, 232) ..., 같이 된다.

 

학습과정

학습과정

학습과정은 먼저, Training Data 가지고 학습 알고리즘에 집어 넣게 된다.

과정에서 학습 알고리즘은 가설함수 h 가지고, 출력을 내게 된다.

가설함수 h x y 연결시키는 역할을 한다.

다시말해 h 학습데이터에서 x y값을 보고,

새로운 x값이 들어왔을 x값에 대한 y값을 예측해주는 역할을 하는것이다.

 

가설함수

그렇다면 h 어떻게 정의를 할까?

h0(x) = θ0 + θ1x

H h(x)로도 표현이 된다.

수식은 선형(1) 함수이다.

가설함수

도표에서 x들이 데이터라고 ,

x들을 가장 표현하는 1 선형 함수가 h 되는것이다.

선형함수를 찾아 값을 예측하는것이 선형회귀이다.

728x90
반응형