728x90
반응형

벨만방정식 6

강화학습 - (12) 정책 반복

강화학습 정책 향상 강화학습의 궁극적인 목표중 하나인 제어(Control)를 하기 위해서는 정책 향상이 필요하다. 이미 최적 가치를 알고 있고, 탐욕적인 정책을 사용했다고 가정했을 때 벨만 방정식은 다음과 같다: $\pi_*(s) = argmax_a \sum_{s'} \sum_{r} p(s', r | s, a) [r + \gamma v_*(s')]$ 만약 $v_*$가 아닌 $v_\pi$를 따른다고 가정해 보자: $\pi(s) = argmax_a \sum_{s'} \sum_{r} p(s', r | s, a) [r + \gamma v_*(s')]$ 만약 위와 같은상황에서 모든 상태에 대해서 위 탐욕적 수식이 정책을 변동시키지 않는다면, 해당 정책은 벨만최적방정식에 위배되고, 이는 이미 이 정책이 최적임을 증..

강화학습 - (11) 정책 평가

강화학습 정책 평가 (Policy Evaluation) 정책 평가란 어떠한 정책에 대해 가치함수를 찾는 것이다. 이를 더 자세히 수식화 하면, 정책 $\pi$에 대한 상태-가치 $v_{\pi}$를 찾는 것이다. $\pi \rightarrow v_{\pi}$ 상태가치 벨만 방정식의 정의를 다시 살펴보자. $v_{\pi}(s) \dot{=} \mathbb{E}_{\pi}[G_t | S_t = s]$ $v_{\pi}(s) = \sum_{a}\pi(a|s) \sum_{s'} \sum_{r}p(s',r|s,a)\left[r+\gamma \mathbb{E}_{\pi}[G_{t+1}|S_{t+1}=s']\right]$ 이전에 봤던 다음과 같은 그리드 월드에서의 MDP는 선형대수(선형시스템)으로 푸는 것이 가능했다. ..

강화학습 - (10) 벨만 최적 방정식

강화학습 벨만 최적 방정식 (Bellman Optimality Equation) 정책은 에이전트가 어떻게 행동하는지를 결정한다. 어떻게 행동하는지에 대한 정책이 정해져야, 그 뒤에 가치함수가 정의될 수 있다. 강화학습의 목표는 장기적인 보상을 최대로 하는 정책을 찾아내는 것이다. 최적 정책 최적의 정책을 찾기 위해서는 하나의 정책이 다른 정책보다 어떻게 나은것인지를 판단할 수 있어야 한다. 다음 그래프는 두개의 정책이 각 상태에서 어떠한 가치를 주는지를 그려놓은 것이다. 앞선 상태들이세는 정책 $\pi_1$이 정책 $\pi_2$ 보다 높은 가치를 주고, 뒤 상태들이세는 반대로 정책 $\pi_2$ 이 정책 $\pi_1$ 보다 높은 가치를 준다. 위 그림 만으로는 $\pi_1$가 $\pi_2$보다 낫다는것을..

강화학습 - (9) 벨만방정식

강화학습 벨만방정식 (Bellman Equation) 현실에서 우리는 피드백을 받지 않고도 많은 것을 배울 수 있다. 처음 자전거를 타고 있다고 가정해 보자. 자전거를 타다가 넘어진 뒤 바위에 부딛쳐 무릎을 다쳤다면, 이 경험은 우리 머리속에 기억이 될 것이다. 다시 자전거를 타다가 비슷한 경험을 하게 된다면, 우리는 머리속으로 바위 근처에 갔을 때 밸런스를 유지하지 못하면, 바위에 부딛쳐 무릎을 다치게 된다는 것을 알 수 있을 것이다. 이처럼 강화학습에서도 미래의 보상을 전부 경험하지 않더라도, 현재의 상태에서 예측을 통해 미래의 상태를 가늠해 볼 수 있다. 벨만 방정식은 이처럼 현재 상태와 미래의 성공확률에 대한 연결을 수식화 해준다. 상태 가치 벨만방정식 (State-value Bellman Equ..

강화학습 공부 - (2) 동적계획법

동적 프로그래밍 (동적 계획법, Dynamic Programming) "동적" (Dynamic) 이라는 단어는 순차적이고, 일시적인 방면의 문제를 푸는것이라는 것을 의미한다. 이는 복잡한 문제를 푸는 방법론이다. 큰 문제를 서브 문제들로 분해한다. 그리고 그 서브 문제들을 다 풀어내면, 큰 문제를 풀 수 있다. 동적 프로그래밍으로 풀 수 있는 문제들은 두가지 특성을 가지고있다. 최적의 세부구조를 가지고있다. 최적의 세부 구조들을 풀어내면, 그로 인해 원래의 문제가 풀리는 구조이다. 최적의 해를 찾기 위해 세부 문제들로 분해해야 한다. 겹치는 세부 문제들이 존재한다. 세부 문제들이 반복되어 일어난다. 또한 그 세부 문제들을 캐시(저장)하고 재사용한다. 따라서 그 세부 문제들을 반복해서 풀어내면 효율적으로 ..

강화학습 공부 - (1) 마르코프 결정 프로세스

서론 MDP란 강화학습의 환경을 공식적으로 설명하는 것이다. 모든 환경이 관찰 가능하다고 가정한다. 거의 모든 강화학습의 문제들이 MDP로 표현될 수 있다. 마르코프 구성요소 현재를 기준으로 미래는 과거와 무관하다 상태 S_t는 $P[S_{t+1} | S_t] = P[S_{t+1} | S1, … S_t]$ 상태 $S_{t+1}$은 오직 상태 S_t에 의해서만 결정된다. 이것이 상태 S_1에서 S_t까지 (히스토리)를 모두 반영한다고 가정한다. 따라서 현재의 상태가 다음(미래)상태를 결정하는데 충분하다고 본다. 상태 전환 확률은 마르코프 상태 s의 제일 높은 확률을 가진 다음 상태 s'를 결정하는 확률이다. $P_{ss'} = P[S_t+1 = s' | S_t = s]$ 상태 전환 행렬은 현재 상태에서 다..

728x90
반응형