강화학습 정책 근사 정책 학습 정책은 에이전트가 어떻게 행동하는지를 정의한다. TD기반 기법들이 행동가치를 예측하는 것은 간단한 확률 기반의 입실론 그리디를 사용했기 때문이다. 하지만 행동가치를 예측하기 전에, 정책 또한 함수로서 근사가 가능하다. 정책을 함수로서 표현한다면, 상태의 표현을 받아 행동을 할 확률을 내는것이라 말할 수 있다. 예제) 강화학습에서 유명한 게임중 하나인 Mountin Car라는 게임을 예로 들어본다. 자동차가 언덕 위의 깃발에 도달해야한다고 할 떄, 위와 같은 두가지의 행동을 하는 정책을 정의할 수 있다. 정책 함수 근사 정책 함수를 근사하는 파라미터는 위와 같이 $\theta$로 표현한다. 위 함수는 모든 상태에 대해 모든 행동들에 대한 확률을 반환해야 한다. 따라서 모든 행..