강화학습 정책 평가 (Policy Evaluation) 정책 평가란 어떠한 정책에 대해 가치함수를 찾는 것이다. 이를 더 자세히 수식화 하면, 정책 $\pi$에 대한 상태-가치 $v_{\pi}$를 찾는 것이다. $\pi \rightarrow v_{\pi}$ 상태가치 벨만 방정식의 정의를 다시 살펴보자. $v_{\pi}(s) \dot{=} \mathbb{E}_{\pi}[G_t | S_t = s]$ $v_{\pi}(s) = \sum_{a}\pi(a|s) \sum_{s'} \sum_{r}p(s',r|s,a)\left[r+\gamma \mathbb{E}_{\pi}[G_{t+1}|S_{t+1}=s']\right]$ 이전에 봤던 다음과 같은 그리드 월드에서의 MDP는 선형대수(선형시스템)으로 푸는 것이 가능했다. ..