728x90
반응형

Reinforcement Learning 3

강화학습 - (1) 불확실성과 결정과정

강화학습 불확실성과 결정과정 (Uncertainty & Decision Process) 강화학습에서는 Trial-and-error를 통해서 여러차례 반복을 통해 학습을 하는 경우가 많다. 보통의 기계학습과는 다르게 에이전트가 놓여진 환경에서 스스로 학습 데이터를 만들어내고 학습한다. 처음보는 불확실한 환경속에서 에이전트는 여러 차례 시도를 통해 학습하는데, 이러한 프로세스를 불확실성(uncertainty) 속의 결정과정(decision making process) 라고 한다. K-armed bandit 문제 이러한 문제는 강화학습에서 종종 Bandit문제로 표현된다. Bandit이란 슬롯머신의 손잡이를 일컷는 말로, 각 슬롯머신 손잡이를 선택했을 때 각 손잡이를 당겼을 때 얻는 보상이 다를때의 상황을 이..

강화학습 공부 - (3) Model Free Prediction

Model Free Prediction 환경이 MDP로 표현될 수는 있지만, MDP가 주어지지 않은 문제를 풀고싶다. 이러한 상황에서 사용할 수 있는 기법들을 설명한다. 동적 계획법 (Dynamic Programming) 동적계획법은 문제를 작은 단위로 나누고, 반복을 통해 문제를 푸는 것이다. 이 방식은 상태의 수가 증가할 수록 계산 복잡도가 엄청나게 늘어난다. 또한, 동적 프로그래밍은 상태가 모두 알려진 MDP에 대해서만 풀 수 있다. 만약 MDP가 주어지지 않고, 모든 상태에 대해 알 수 없다면, 동적계획법을 사용할 수 없다. 따라서, 정책이 주어졌고, MDP를 알지 못할 때, 가치함수를 찾는 과정을 알아보고자 한다. 몬테카를로 학습 (Monte-Carlo Learning) 몬테카를로 학습은 직관적..

강화학습 공부 - (1) 마르코프 결정 프로세스

서론 MDP란 강화학습의 환경을 공식적으로 설명하는 것이다. 모든 환경이 관찰 가능하다고 가정한다. 거의 모든 강화학습의 문제들이 MDP로 표현될 수 있다. 마르코프 구성요소 현재를 기준으로 미래는 과거와 무관하다 상태 S_t는 $P[S_{t+1} | S_t] = P[S_{t+1} | S1, … S_t]$ 상태 $S_{t+1}$은 오직 상태 S_t에 의해서만 결정된다. 이것이 상태 S_1에서 S_t까지 (히스토리)를 모두 반영한다고 가정한다. 따라서 현재의 상태가 다음(미래)상태를 결정하는데 충분하다고 본다. 상태 전환 확률은 마르코프 상태 s의 제일 높은 확률을 가진 다음 상태 s'를 결정하는 확률이다. $P_{ss'} = P[S_t+1 = s' | S_t = s]$ 상태 전환 행렬은 현재 상태에서 다..

728x90
반응형