'탐색과활용' 태그의 글 목록

강화학습 - (15) 입실론 그리디

강화학습 탐색적 시작의 문제점 지난 포스팅에서 이야기한 탐색적 시작은 현실의 문제에서 많은 문제점들이 있다. 만약 상태 공간이 아주 큰 문제라면, 처음만 랜덤이 이 기법은 모든 상태에 대한 충분한 탐색이 불가능해진다. 첫 상태에 대한 샘플링이 비효율적이고 쉽지 않기 떄문에, 이는 비효율적인 기법이 된다. 입실론 소프트 정책 (Epsilon Soft Policy) 입실론 소프트란 모든 행동에 대해서 최소한 입실론 나누기 행동의 숫자의 확률을 부여하는 것을 말한다. 다른말로 해 각각의 행동은 적어도 $\frac{\epsilon}{|A|}$의 확률을 가지게 되는 것이다. 입실론 소프트 정책을 활용하면 우리는 더이상 탐색적 시작점을 선택하지 않아도 된다. 입실론 소프트 정책을 통해서 여러 상태들에 대해서 연속적..

데이터사이언스/강화학습 2020.10.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

금융덕후

탐색과활용 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역