강화학습벨만 최적 방정식 (Bellman Optimality Equation)정책은 에이전트가 어떻게 행동하는지를 결정한다.어떻게 행동하는지에 대한 정책이 정해져야, 그 뒤에 가치함수가 정의될 수 있다.강화학습의 목표는 장기적인 보상을 최대로 하는 정책을 찾아내는 것이다. 최적 정책최적의 정책을 찾기 위해서는 하나의 정책이 다른 정책보다 어떻게 나은것인지를 판단할 수 있어야 한다.다음 그래프는 두개의 정책이 각 상태에서 어떠한 가치를 주는지를 그려놓은 것이다. 앞선 상태들이세는 정책 $\pi_1$이 정책 $\pi_2$ 보다 높은 가치를 주고,뒤 상태들이세는 반대로 정책 $\pi_2$ 이 정책 $\pi_1$ 보다 높은 가치를 준다.위 그림 만으로는 $\pi_1$가 $\pi_2$보다 낫다는것을 장담할 수 없..