강화학습 가치함수의 근사 지금까지는 행렬에 모든 상태전환을 고려하는 tabular 상황의 상화학습만을 고려했다. 하지만 현실의 문제에서는 모든 가능성을 행렬에 저장하는 것은 불가능하다. 예를 들어 로봇이 카메라를 통해 세상을 보는것은 너무나 많은 고려되지 않은 불확실성을 수반한다. 따라서 이를 해결하기 위한 방법을 알아보도록 한다. 매개변수를 가진 함수 (Parameterized Function) 상태를 통해 가치를 반환하는 것을 하나의 함수로서 생각해보자. 이 함수는 어떠한 상태 $s_i$를 받아, 이 상태의 가치 $v_i$를 반환하는 함수이다. $f(s) = v$ 만약 이 함수가 하나의 행렬로서 표현된다면, 지금까지 고려하던 tabular 설정이라고 말할 수 있다. 하지만 tabular만이 유일한 방..