강화학습 탐색과 활용 에이전트는 종종 탐색을 하기 위해서 최적이 아닌 행동들을 취해야 한다. 하지만 이는 꼭 필요하지 않은 작업일 수도 있다. 입실론 소프트 정책은 모든 행동에 대해 특정 확률을 부여함으로서, 행동하는 것과 학습하는것 모두 차선의(sub-optimal) 선택을 취했다. 오프 폴리시 (On-Policy) 지금까지 다루었던 모든 문제는 On-Policy 학습 방법에 해당했다. On-Policy란 정책을 평가하고 향상하여 행동을 선택하는 학습 방법이다. 따라서 행동하는 정책과 학습하는 정책이 같다 온 폴리시 (Off-Policy) 반대로 Off-Policy란 행동하는 정책과 학습하는 정책이 다른 학습 방법이다. 이를 다른말로 표현하면, 행동을 선택하는 정책과 학습하는 정책이 각각 다르다는 의미..