강화학습 몬테카를로 가치 근사 가치 예측 (Value Estimation) 가치함수의 예측은 지도학습과 비슷한 점이 있다. 몬테카를로 예측에서는 상태 $S_i$를 받아 반환값 $G_i$를 예측하는 것을 지도학습과 비슷하다고 볼 수 있고, 시간차학습에서는 상태 $S_i$를 받아 보상과 미래가치 $R_{i+1} + \gamma v_{i+1}$를 예측하는 것을 비슷하다고 볼 수 있다. 여기서 $v$를 함수 근사로 표현하면 $\hat{v}(S_{i+1}, w)$로 표현할 수 있다. 하지만 강화학습에서는 지도학습과는 다른점이 존재한다. 지도학습은 어떠한 정답(ground truth label)이 존재한다. 하지만 강화학습은 에이전트의 자체적은 다음 상태에 대한 예측값이 사용된다. (몬테카를로에서는 $G_i$, T..