728x90
반응형

데이터사이언스/강화학습 37

강화학습 - (7) 연속적인 결정과정

강화학습 연속적인 결정과정 (Continuing Task)지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다.하지만 많은 현실의 문제들은 연속적인 경우가 많다. 에피소드식과 연속적인 결정과정의 차이에피소드식 결정과정자연스럽게 에피소드 단위로 분리할 수 있다.에피소드는 최종상태(terminal state) 에서 끝이 난다.각 에피소드는 독립적(independent)이다.최종 결과값은 모든 보상의 합이다.$G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$연속적인 결정과정에이전트와 환경의 상호작용이 끝없이 이어진다.최종상태가 존재하지 않는다.예제)방 안의 온도를 조절하는 에이전트가 있다고 하자.이 경우는 연속적인 결정과정에 해당한다.에이전트가..

강화학습 - (6) 보상

강화학습보상(Reward)강화학습의 목적은 미래의 보상을 최대화 하는 것이다.Bandit 문제에서는 당장 앞에있는 보상을 최대화 하는 것이 목적이었지만,MDP에서는 조금 더 미래의 상태들을 고려해 행동을 선택한다. 예제)로봇이 걷는 것을 에이전트와 보상에 비유해보자.로봇이 많이 걸을수록 보상을 얻는다고 할 때,로봇이 점프해서 슬라이딩을 하면 당장의 보상이 클 것이다.하지만 다시 일어나서 걷는 것을 생각하면, 미래의 보상은 작아지기 때문에,MDP를 따르면 로봇이 그냥 걷는것이 미래의 보상을 더 높이는 방법이다. 에이전트의 목표에이전트가 얻을 수 있는 결과(return)은 다음과 같이 정의할 수 있다:$$G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ...$$ 여기서 MDP의 모..

강화학습 - (5) 마르코프 결정과정

강화학습K-armed bandit의 한계k-armed bandit 혹은 MAB 문제에서는 각 밴딧이 주는 확률과 보상이 같았다.하지만 현실의 문제에서는 항상 그렇지 않다.서로 다른 상황에서 같은 행동을 취하더라도 같은 보상을 얻을수는 없다.또한 현재 취하는 행동이 추후에 받을 보상에 영향을 줄 수도 있다.마르코프 결정과정은 이러한 두가지의 관점을 반영하고자 고안된 모델이다. 예제 1)토끼 한마리가 왼쪽의 브로콜리와 오른쪽의 당근을 두고 고민하고 있다.당근은 10의 보상을, 브로콜리는 3의 보상을 준다고 하면, 토끼는 당근을 선택할것이다.그리고 같은 토끼에게 반대의 상황, 즉 당근과 브로콜리의 위치를 바꿔준다면,토끼는 다시한번 당근을 선택할것이다.k-armed bandit 문제는 이러한 상황을 고려하지는 ..

강화학습 - (4) UCB

강화학습예측속의 불확실성 (Uncertainty in Estimates)UCB는 탐색(exploration)에 사용되는 기법 중 하나로 밴딧 문제를 해결하는 논문들에 많이 나온다.이 기법은 강화학습의 예측에서의 불확실성을 해결하기 위한 기법이다. 행동가치 Q(a)값을 예측한다고 가정해 보자.그리고 해당 Q값은 어떠한 불확실성을 가지고 있다.이 불확실성을 표현하기 위해 신뢰구간(confidence interval)을 설정한다.따라서 이 신뢰구간 사이에 놓인 값들은 불확실성에 대해 확신이 있다고 보는 것이다.만약 이 신뢰 구간이 작다면, 에이전트는 이 Q(a)값에 대해 엄청난 확신을 가지는 것이다.반대로 이 신뢰 구간이 크다면, 에이전트는 이 Q(a)값에 대해 확신이 없는 것이다. 낙관적인 초기값 (Opti..

강화학습 - (3) 탐색과 활용

강화학습탐색과 활용 (Exploration & Exploitation Trade-off)탐색탐색(Exploration)은 에이전트가 장기적인 이익을 추구할 수 있도록 환경에 대한 지식을 얻을 수 있게 해준다. 예제)한 사람이 가장 좋아하는 식당에 가서 갈 때마다 위 세가지 메뉴중 하나의 메뉴를 선택한다.$q^*(a)$는 각 메뉴의 가치를, $q(a)$는 예측된 메뉴의 가치를, $N(a)$는 해당 메뉴를 선택한 횟수를 의미한다.선택할 때마다 이 사람은 각 메뉴에 대해 평가하고, 이를 통해 $q(a)$를 갱신한다.갱신된 $q(a)$값이 곧 탐색을 통해 얻은 에이전트(식당에 간 사람)의 지식이 된다.이 지식을 기반으로 이 사람은 추후에 어떤 음식을 주문할 것인지를 선택하게 된다. 활용활용(Exploration..

강화학습 - (2) 행동가치함수

강화학습행동가치함수 (Action-Value Function)행동가치함수의 정의를 다시한번 살펴보자:$$q^*(a) \dot{=} \mathbb{E}[R_t | A_t = a] \;\; \forall a \in {1, ..., k}$$위 수식에서 행동가치함수 $q*(a)$는 모든 행동 a에 대해서, $A_t = a$가 주어졌을 때 예상되는(expected) $R_t$로 정의한다.(이 행동가치함수는 강화학습에서 Q함수 또는 Q값이라고 불리는 값이다.) 샘플평균기법 (Sample-average method)에이전트는 보통 $q^*(a)$를 시작부터 알 수는 없다.따라서 보통의 강화학습에서는 이를 추정(estimate)한다.이를 추정하는 방법 중 하나가 샘플평균기법이다. $$\begin{equation}\be..

강화학습 - (1) 불확실성과 결정과정

강화학습 불확실성과 결정과정 (Uncertainty & Decision Process)강화학습에서는 Trial-and-error를 통해서 여러차례 반복을 통해 학습을 하는 경우가 많다.보통의 기계학습과는 다르게 에이전트가 놓여진 환경에서 스스로 학습 데이터를 만들어내고 학습한다.처음보는 불확실한 환경속에서 에이전트는 여러 차례 시도를 통해 학습하는데,이러한 프로세스를 불확실성(uncertainty) 속의 결정과정(decision making process) 라고 한다. K-armed bandit 문제 이러한 문제는 강화학습에서 종종 Bandit문제로 표현된다.Bandit이란 슬롯머신의 손잡이를 일컷는 말로,각 슬롯머신 손잡이를 선택했을 때 각 손잡이를 당겼을 때 얻는 보상이 다를때의 상황을 이야기한다.이..

728x90
반응형