데이터사이언스/강화학습

강화학습 - (15) 입실론 그리디

_금융덕후_ 2020. 10. 4. 16:46
728x90
반응형

 

 

강화학습

 

탐색적 시작의 문제점

지난 포스팅에서 이야기한 탐색적 시작은 현실의 문제에서 많은 문제점들이 있다.

만약 상태 공간이 아주 큰 문제라면, 처음만 랜덤이 이 기법은 모든 상태에 대한 충분한 탐색이 불가능해진다.

첫 상태에 대한 샘플링이 비효율적이고 쉽지 않기 떄문에, 이는 비효율적인 기법이 된다.

 

 

입실론 소프트 정책 (Epsilon Soft Policy)

 

 

입실론 소프트란 모든 행동에 대해서 최소한 입실론 나누기 행동의 숫자의 확률을 부여하는 것을 말한다.

다른말로 해 각각의 행동은 적어도 $\frac{\epsilon}{|A|}$의 확률을 가지게 되는 것이다.

입실론 소프트 정책을 활용하면 우리는 더이상 탐색적 시작점을 선택하지 않아도 된다.

입실론 소프트 정책을 통해서 여러 상태들에 대해서 연속적인 탐색이 가능해지기 때문이다.

 

 

 

입실론 소프트 정책은 또한 항상 확률적인 정책이다.

이는 각각의 행동들이 모두 어떠한 상태에 있든 각각의 행동을 선택할 확률이 부여되기 때문이다.

이 특성을 고려해보면, 모든 상태에 똑같은 확률을 주는 랜덤 정책 또한 입실론 소프트 정책의 한 종류임을 알 수 있다.

 

입실론 그리디 (Epsilon Greedy)

초기 포스팅에서 입실론 그리디에 대해 언급한 것을 기억해보자.

입실론 그리디란 확률적 정책으로서, $\epsilon$ 확률로 랜덤한 행동을,

그리고 $1-\epsilon$ 확률로 탐욕적인 행동을 취하는 정책이다.

입실론 그리디는 역시 위에서 이야기한 입실론 소프트 정책의 한 종류이다.

(입실론 소프트가 하나의 집합이라면, 입실론 그리디는 이 집합의 하위 집합이라는 개념이다.)

 

예제)

 

 

위의 그리드월드 예제에서 확정적 정책과 입실론 그리디의 차이점을 볼 수 있다.

확정적 정책은 각 상태에 대해 확정적이기 때문에 마지막에는 하나의 행동만이 존재하게 된다.

하지만 입실론 그리디는 $\epsilon$확률에 의해 항상 랜덤한 행동을 선택하기 때문에,

각 상태에서 모든 행동을 탐색할 수 있게 된다.

 

최적 정책

입실론 소프트 정책은 항상 최적 정책이 아닐 수 있다.

보통의 경우 탐색적 시작점을 활용한 확정적 정책이 더 좋은 결과를 낸다.

하지만 많은 경우 입실론 소프트 정책은 확정적 정책보다 더 좋은 결과를 낼 수 있다.

이러한 경우를 보통 최적의 입실론 소프트 정책이라고 한다.

 

입실론 소프트 정책만을 사용한다면 항상 최적이 아닐 수 있지만,

이 기법을 활용한 Q러닝의 경우 최적의 정책을 찾을 수 있다.

 

728x90
반응형