'Monte-Carlo' 태그의 글 목록

728x90

Monte-Carlo 2

강화학습 중요도 샘플링 (Importance Sampling) 중요도 샘플링이랑 다른 분포에서 샘플링된 값을 가지고, 구하고자 하는 분포(타깃 분포)에서의 기댓값을 유추하는 방법이다. 랜덤 변수 $x$가 분포 $b$에서 샘플링 되었다고 가정해보자: Sample: $x ~ b$ Estimate: $\mathbb{E}_{\pi}[X]$ 여기서 우리는 $X$의 기댓값을 구하고 싶지만, 분포 $b$에서의 샘플 평균을 그대로 사용할 수는 없다. 왜냐하면 이 방식으로 구하게 되면 타깃 분포에서의 기댓값이 아닌 분포 $b$에서의 기댓값이 구해지기 때문이다. 먼저 기댓값의 정의를 다시한번 살펴보자: (0)$\mathbb{E}_{\pi}[X] \dot{=} \sum_{x \in X} x\pi(x)$ (1)$= x \pi..

데이터사이언스/강화학습 2020.10.04

강화학습 공부 - (3) Model Free Prediction

Model Free Prediction 환경이 MDP로 표현될 수는 있지만, MDP가 주어지지 않은 문제를 풀고싶다. 이러한 상황에서 사용할 수 있는 기법들을 설명한다. 동적 계획법 (Dynamic Programming) 동적계획법은 문제를 작은 단위로 나누고, 반복을 통해 문제를 푸는 것이다. 이 방식은 상태의 수가 증가할 수록 계산 복잡도가 엄청나게 늘어난다. 또한, 동적 프로그래밍은 상태가 모두 알려진 MDP에 대해서만 풀 수 있다. 만약 MDP가 주어지지 않고, 모든 상태에 대해 알 수 없다면, 동적계획법을 사용할 수 없다. 따라서, 정책이 주어졌고, MDP를 알지 못할 때, 가치함수를 찾는 과정을 알아보고자 한다. 몬테카를로 학습 (Monte-Carlo Learning) 몬테카를로 학습은 직관적..

아카이브/강화학습(2019) 2019.08.13

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

금융덕후

Monte-Carlo 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역