728x90
반응형

정책경사 3

강화학습 - (26-2) REINFORCE 코드예제 2

강화학습 패키지 설치¶ 다음 코드는 세가지 패키지가 선행 되어야 합니다. sudo apt-get install ffmpeg pip install gym pip install gym_minigrid gym.render() 코드가 에러를 발생할 경우, 다음 패키지를 설치하고: sudo apt-get install xvfb 주피터 노트북을 다음 명령어를 통해 실행합니다: xvfb-run -s "-screen 0 1400x900x24" jupyter notebook In [1]: import warnings; warnings.filterwarnings('ignore') import numpy as np import pandas as pd import random import gym import matplotli..

강화학습 - (26-1) REINFORCE 코드예제

강화학습 패키지 설치¶ 다음 코드는 세가지 패키지가 선행 되어야 합니다. sudo apt-get install ffmpeg pip install gym pip install gym_minigrid gym.render() 코드가 에러를 발생할 경우, 다음 패키지를 설치하고: sudo apt-get install xvfb 주피터 노트북을 다음 명령어를 통해 실행합니다: xvfb-run -s "-screen 0 1400x900x24" jupyter notebook In [1]: import warnings; warnings.filterwarnings('ignore') import numpy as np import pandas as pd import random import gym from gym import ..

강화학습 - (26) 정책 경사

강화학습 정책 경사 보상 모델링 강화학습에서 보상을 모델링 하는 방법은 크게 세가지가 있다. 먼저 에피소드 태스크의 경우, 우리는 해당 에피소드의 모든 보상을 더하고, 에피소드마다 최종적으로 얻어지는 모든 보상의 합을 최대화 한다: $G_t = \sum^{T}_{t=0} R_t$ 연속적인 태스크의 경우, 우리는 바로 다음 보상에 초점을 맞추고, 미래의 보상에는 감가율을 더해준다: $G_t = \sum^{\infty}_{t=0} \gamma^t R_t$ 마지막으로, 전체 보상의 합에서 평균 보상을 빼주는 방식이다. 각 시점에 에이전트가 받는 보상에서 평균 보상을 빼줌으로서, 연속적인 태스크임에도 무한이 아닌 보상으로 학습할 수 있다: $G_t = \sum^{\infty}_{t=0} R_t - r(\pi)$..

728x90
반응형