728x90
반응형

MDP 2

강화학습 - (10) 벨만 최적 방정식

강화학습 벨만 최적 방정식 (Bellman Optimality Equation) 정책은 에이전트가 어떻게 행동하는지를 결정한다. 어떻게 행동하는지에 대한 정책이 정해져야, 그 뒤에 가치함수가 정의될 수 있다. 강화학습의 목표는 장기적인 보상을 최대로 하는 정책을 찾아내는 것이다. 최적 정책 최적의 정책을 찾기 위해서는 하나의 정책이 다른 정책보다 어떻게 나은것인지를 판단할 수 있어야 한다. 다음 그래프는 두개의 정책이 각 상태에서 어떠한 가치를 주는지를 그려놓은 것이다. 앞선 상태들이세는 정책 $\pi_1$이 정책 $\pi_2$ 보다 높은 가치를 주고, 뒤 상태들이세는 반대로 정책 $\pi_2$ 이 정책 $\pi_1$ 보다 높은 가치를 준다. 위 그림 만으로는 $\pi_1$가 $\pi_2$보다 낫다는것을..

강화학습 - (5) 마르코프 결정과정

강화학습 K-armed bandit의 한계 k-armed bandit 혹은 MAB 문제에서는 각 밴딧이 주는 확률과 보상이 같았다. 하지만 현실의 문제에서는 항상 그렇지 않다. 서로 다른 상황에서 같은 행동을 취하더라도 같은 보상을 얻을수는 없다. 또한 현재 취하는 행동이 추후에 받을 보상에 영향을 줄 수도 있다. 마르코프 결정과정은 이러한 두가지의 관점을 반영하고자 고안된 모델이다. 예제 1) 토끼 한마리가 왼쪽의 브로콜리와 오른쪽의 당근을 두고 고민하고 있다. 당근은 10의 보상을, 브로콜리는 3의 보상을 준다고 하면, 토끼는 당근을 선택할것이다. 그리고 같은 토끼에게 반대의 상황, 즉 당근과 브로콜리의 위치를 바꿔준다면, 토끼는 다시한번 당근을 선택할것이다. k-armed bandit 문제는 이러한..

728x90
반응형