728x90
반응형

시간차학습 6

강화학습 - (24) 시간차 가치 근사

강화학습 시간차 가치 근사 시간차학습(TD)은 에이전트 자신의 가치함수를 사용해 예측값을 갱신하는 방법이다. 이를 함수 근사를 통해 구현하는 방법을 배워본다. 몬테카를로 경사 몬테카를로 경사 갱신 수식을 다시 살펴보자: $w \leftarrow w + \alpha [G_t - \hat{v}(S_t, w)] \nabla \hat{v}(S_t, w)$ 몬테카를로 경사에서는 반환값의 샘플 $G_t$를 사용해 가치를 갱신하였다. 하지만 반환값 $G_t$만이 갱신 수식에 사용될 수 있는 것만은 아니다. 편견이 없이 (unbiased) 가치를 표현할 수 있는 것이라면 무엇이든 사용될 수 있다. 편견이 없는 값을 사용하면, 에이전트는 local optimum에 도달할 수 있다. 시간차학습의 근사 시간차 학습에서는 $..

강화학습 - (20-1) Q러닝 코드예제

강화학습 패키지 설치¶ 다음 코드는 세가지 패키지가 선행 되어야 합니다. sudo apt-get install ffmpeg pip install gym pip install gym_minigrid In [1]: import numpy as np import pandas as pd import random from collections import defaultdict import gym import gym_minigrid import matplotlib.pyplot as plt %matplotlib inline 환경¶ 예제 코드는 그리드월드 예제에서 Q러닝 에이전트가 학습하는 코드 입니다. 에이전트가 최종 지점에 도달하면 보상을 받고, 에이전트가 취할 수 있는 행동은 다음 세가지 입니다. 왼쪽으로 회전 ..

강화학습 - (19-1) SARSA 코드예제

강화학습 SARSA 코드예제 패키지 설치¶ 다음 코드는 세가지 패키지의 설치가 선행 되어야 합니다. sudo apt-get install ffmpeg pip install gym pip install gym_minigrid In [1]: import numpy as np import pandas as pd import random from collections import defaultdict import gym import gym_minigrid import matplotlib.pyplot as plt %matplotlib inline 환경¶ 예제 코드는 그리드월드 예제에서 SARSA에이전트가 학습하는 코드 입니다. 에이전트가 최종 지점에 도달하면 보상을 받고, 에이전트가 취할 수 있는 행동은 다음 세..

카테고리 없음 2020.11.01

강화학습 - (19) SARSA

강화학습 SARSA SARSA란 일반화된 정책반복 (Generalized Policy Iteration)과 시간차 학습(TD)가 접목된 알고리즘이다. 일반화된 정책반복 일반화된 정책반복이란, 정책향상을 하기 위해서 굳이 정책 평가를 끝까지 해보지 않고 적정양의 정책 평가만으로도 정책 향상을 할 수 있다는 개념이었다. 이 과정은 시간차 학습과 만나 더 강력해질 수 있다. 단 한 스텝의 정책 평가 만으로도 정책 향상을 이룰 수 있다. 상태가치에서 행동가치로 각 스템의 정책 평가에서 정책 향상을 이루기 위해서는, 상태가치 $V(s)$가 아닌 행동가치 $Q(s,a)$를 사용해야 한다. 이는 위 그림에서 처럼 각 상태 $s$의 가치가 아닌, 각 상태와 행동의 페어 $(s,a)$를 평가해야 함을 의미한다. SARS..

강화학습 공부 - (4) Model Free Control

Model Free Control Model Free Control은 다음과 같은 문제들을 풀기 위함이다: 문제에서 MDP가 주어져 있지 않지만, 경험을 통해 간단하게 만들 수 있는 경우 MDP가 주어져 있지만, 환경이 너무 크기 때문에 샘플링을 통해 행동하는 경우 On-Policy vs Off-Policy On-Policy 행동하면서 학습하는 문제 정책 $\pi$를 통한 경험의 샘플링을 통해 정책 $\pi$ 학습시키는 것 , 즉 행동하는대로 학습하는 형태 또한 검증시에도 같은 정책을 사용한다. Off-Policy 다른 (에이전트의) 행동 패턴을 통해 학습하는 문제 다른 에이전트의 정책 $\mu$를 통핸 경험의 샘플링을 통해 정책 $\pi$를 학습시키는 것, 즉 다른 누군가의 행동을 보고 학습하는 형태 ..

강화학습 공부 - (3) Model Free Prediction

Model Free Prediction 환경이 MDP로 표현될 수는 있지만, MDP가 주어지지 않은 문제를 풀고싶다. 이러한 상황에서 사용할 수 있는 기법들을 설명한다. 동적 계획법 (Dynamic Programming) 동적계획법은 문제를 작은 단위로 나누고, 반복을 통해 문제를 푸는 것이다. 이 방식은 상태의 수가 증가할 수록 계산 복잡도가 엄청나게 늘어난다. 또한, 동적 프로그래밍은 상태가 모두 알려진 MDP에 대해서만 풀 수 있다. 만약 MDP가 주어지지 않고, 모든 상태에 대해 알 수 없다면, 동적계획법을 사용할 수 없다. 따라서, 정책이 주어졌고, MDP를 알지 못할 때, 가치함수를 찾는 과정을 알아보고자 한다. 몬테카를로 학습 (Monte-Carlo Learning) 몬테카를로 학습은 직관적..

728x90
반응형