728x90
반응형

sarsa 12

강화학습 - (16) 오프 폴리시

강화학습 탐색과 활용 에이전트는 종종 탐색을 하기 위해서 최적이 아닌 행동들을 취해야 한다. 하지만 이는 꼭 필요하지 않은 작업일 수도 있다. 입실론 소프트 정책은 모든 행동에 대해 특정 확률을 부여함으로서, 행동하는 것과 학습하는것 모두 차선의(sub-optimal) 선택을 취했다. 오프 폴리시 (On-Policy) 지금까지 다루었던 모든 문제는 On-Policy 학습 방법에 해당했다. On-Policy란 정책을 평가하고 향상하여 행동을 선택하는 학습 방법이다. 따라서 행동하는 정책과 학습하는 정책이 같다 온 폴리시 (Off-Policy) 반대로 Off-Policy란 행동하는 정책과 학습하는 정책이 다른 학습 방법이다. 이를 다른말로 표현하면, 행동을 선택하는 정책과 학습하는 정책이 각각 다르다는 의미..

강화학습 공부 - (4) Model Free Control

Model Free Control Model Free Control은 다음과 같은 문제들을 풀기 위함이다: 문제에서 MDP가 주어져 있지 않지만, 경험을 통해 간단하게 만들 수 있는 경우 MDP가 주어져 있지만, 환경이 너무 크기 때문에 샘플링을 통해 행동하는 경우 On-Policy vs Off-Policy On-Policy 행동하면서 학습하는 문제 정책 $\pi$를 통한 경험의 샘플링을 통해 정책 $\pi$ 학습시키는 것 , 즉 행동하는대로 학습하는 형태 또한 검증시에도 같은 정책을 사용한다. Off-Policy 다른 (에이전트의) 행동 패턴을 통해 학습하는 문제 다른 에이전트의 정책 $\mu$를 통핸 경험의 샘플링을 통해 정책 $\pi$를 학습시키는 것, 즉 다른 누군가의 행동을 보고 학습하는 형태 ..

728x90
반응형