728x90
반응형

탐색과활용 2

강화학습 - (16) 오프 폴리시

강화학습 탐색과 활용 에이전트는 종종 탐색을 하기 위해서 최적이 아닌 행동들을 취해야 한다. 하지만 이는 꼭 필요하지 않은 작업일 수도 있다. 입실론 소프트 정책은 모든 행동에 대해 특정 확률을 부여함으로서, 행동하는 것과 학습하는것 모두 차선의(sub-optimal) 선택을 취했다. 오프 폴리시 (On-Policy) 지금까지 다루었던 모든 문제는 On-Policy 학습 방법에 해당했다. On-Policy란 정책을 평가하고 향상하여 행동을 선택하는 학습 방법이다. 따라서 행동하는 정책과 학습하는 정책이 같다 온 폴리시 (Off-Policy) 반대로 Off-Policy란 행동하는 정책과 학습하는 정책이 다른 학습 방법이다. 이를 다른말로 표현하면, 행동을 선택하는 정책과 학습하는 정책이 각각 다르다는 의미..

강화학습 - (15) 입실론 그리디

강화학습 탐색적 시작의 문제점 지난 포스팅에서 이야기한 탐색적 시작은 현실의 문제에서 많은 문제점들이 있다. 만약 상태 공간이 아주 큰 문제라면, 처음만 랜덤이 이 기법은 모든 상태에 대한 충분한 탐색이 불가능해진다. 첫 상태에 대한 샘플링이 비효율적이고 쉽지 않기 떄문에, 이는 비효율적인 기법이 된다. 입실론 소프트 정책 (Epsilon Soft Policy) 입실론 소프트란 모든 행동에 대해서 최소한 입실론 나누기 행동의 숫자의 확률을 부여하는 것을 말한다. 다른말로 해 각각의 행동은 적어도 $\frac{\epsilon}{|A|}$의 확률을 가지게 되는 것이다. 입실론 소프트 정책을 활용하면 우리는 더이상 탐색적 시작점을 선택하지 않아도 된다. 입실론 소프트 정책을 통해서 여러 상태들에 대해서 연속적..

728x90
반응형