강화학습 시간차 (Temporal Difference) 강화학습의 가장 특수한점, 강화학습만의 유일한 강점을 꼽으라고 한다면, 그것은 시간차학습(Temporal Difference Learning)일 것이다. 강화학습은 어떠한 상태의 가치를 판단함으로서 예측한다. $v_{\pi}(s) \dot{=} \mathbb{E}_{\pi}[G_t|S_t=s]$ 지금까지의 학습 기법은 에피소드가 끝나야만 학습이 가능했다. 하지만 배운 기법을 조금 수정하면 에피소드 중간에도 학습이 가능하게 해준다. 몬테카를로 학습기법에 점진적인 갱신을 반영하면 다음과 같다: $V(S_t) \leftarrow V(S_t) + \alpha [G_t - V(S_t)]$ 결과값 $G_t$는 에피소드가 끝나야만 얻어지는 반환갑이다. 따라서 이..