728x90
반응형

DQN 3

강화학습 - (22) 가치함수의 근사

강화학습 가치함수의 근사 지금까지는 행렬에 모든 상태전환을 고려하는 tabular 상황의 상화학습만을 고려했다. 하지만 현실의 문제에서는 모든 가능성을 행렬에 저장하는 것은 불가능하다. 예를 들어 로봇이 카메라를 통해 세상을 보는것은 너무나 많은 고려되지 않은 불확실성을 수반한다. 따라서 이를 해결하기 위한 방법을 알아보도록 한다. 매개변수를 가진 함수 (Parameterized Function) 상태를 통해 가치를 반환하는 것을 하나의 함수로서 생각해보자. 이 함수는 어떠한 상태 $s_i$를 받아, 이 상태의 가치 $v_i$를 반환하는 함수이다. $f(s) = v$ 만약 이 함수가 하나의 행렬로서 표현된다면, 지금까지 고려하던 tabular 설정이라고 말할 수 있다. 하지만 tabular만이 유일한 방..

강화학습 - (21) 모델

강화학습 모델 우리는 평소에 계획을 많이 세운 뒤 일을 실행하는 상황이 있고, 별 생각 없이 일을 진행하는 상황이 있다. 강화학습에서도 다이나믹 프로그래밍 처럼 수행하는 일에 대한 모든 지식을 수반하는 모델을 만들 수도 있고, 반대로 모델이 없이 샘플링 기반의 학습을 진행할 수도 있다. 강화학습에서는 이러한 계획을 모델이라고 한다. 모델은 환경의 유동성(dynamics)에 대한 정보를 저장한다. 이는 현재 상태에서 한 행동을 취했을 떄, 다음에 받는 상태와 보상에 대한 정보, 즉 전환(transition)과 보상(reward)의 유동성에 대한 정보이다. 계획 강화학습에서 모델은 에이전트에게 계획을 가능하게 한다. 다른말로 하면 모델은 에이전트가 환경에 대해 어떻게 사전 지식을 갖고 생각하는지에 대한 모델..

강화학습 - (7) 연속적인 결정과정

강화학습 연속적인 결정과정 (Continuing Task) 지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다. 하지만 많은 현실의 문제들은 연속적인 경우가 많다. 에피소드식과 연속적인 결정과정의 차이 에피소드식 결정과정 자연스럽게 에피소드 단위로 분리할 수 있다. 에피소드는 최종상태(terminal state) 에서 끝이 난다. 각 에피소드는 독립적(independent)이다. 최종 결과값은 모든 보상의 합이다. $G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$ 연속적인 결정과정 에이전트와 환경의 상호작용이 끝없이 이어진다. 최종상태가 존재하지 않는다. 예제) 방 안의 온도를 조절하는 에이전트가 있다고 하자. 이 경우는 연속적인 결정..

728x90
반응형