강화학습정책 (Policy)정책은 에이전트가 어떻게 행동을 선택하는지를 정의한다.강화학습에서의 정책은 보통 $\pi$로 정의한다. 확정적 정책 (Deterministic Policy)확정적 정책은 위 그림에서와 같이 각 상태당 정해진 행동이 존재한다.보이는 바와 같이 에이전트는 각기 다른 상태에서 같은 행동을 선택할 수도 있고,어떠한 행동은 아예 선택하지 않을 수도 있다.$\pi(s) = a$ 위 그림을 테이블로 표현하면 다음과 같이 표현 가능하다:StateAction$s_0$$a_1$$s_1$|$a_0$$s_2$$a_0$ 예제)에이전트가 집으로 가는 문제를 풀고있다고 하자.에이전트는 상하좌우로 움직일 수 있고,그림의 각 방향 화살표는 하나의 정책이 된다.각 화살표는 각 상태(칸)에서 어떤 방향으로 움직..