강화학습 시간차 가치 근사 시간차학습(TD)은 에이전트 자신의 가치함수를 사용해 예측값을 갱신하는 방법이다. 이를 함수 근사를 통해 구현하는 방법을 배워본다. 몬테카를로 경사 몬테카를로 경사 갱신 수식을 다시 살펴보자: $w \leftarrow w + \alpha [G_t - \hat{v}(S_t, w)] \nabla \hat{v}(S_t, w)$ 몬테카를로 경사에서는 반환값의 샘플 $G_t$를 사용해 가치를 갱신하였다. 하지만 반환값 $G_t$만이 갱신 수식에 사용될 수 있는 것만은 아니다. 편견이 없이 (unbiased) 가치를 표현할 수 있는 것이라면 무엇이든 사용될 수 있다. 편견이 없는 값을 사용하면, 에이전트는 local optimum에 도달할 수 있다. 시간차학습의 근사 시간차 학습에서는 $..