데이터사이언스/강화학습

강화학습 - (7) 연속적인 결정과정

Johnny Yoon 2020. 9. 14. 09:43
728x90
반응형

강화학습

 

연속적인 결정과정 (Continuing Task)

지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다.

하지만 많은 현실의 문제들은 연속적인 경우가 많다.

 

에피소드식과 연속적인 결정과정의 차이

에피소드식 결정과정

  • 자연스럽게 에피소드 단위로 분리할 수 있다.
  • 에피소드는 최종상태(terminal state) 에서 끝이 난다.
  • 각 에피소드는 독립적(independent)이다.
  • 최종 결과값은 모든 보상의 합이다.
  • $G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$

연속적인 결정과정

  • 에이전트와 환경의 상호작용이 끝없이 이어진다.
  • 최종상태가 존재하지 않는다.

예제)

방 안의 온도를 조절하는 에이전트가 있다고 하자.

이 경우는 연속적인 결정과정에 해당한다.

에이전트가 온도를 내리더라도, 저녁이 되어 날씨가 추워지면 다시 올려야하고,

온도를 올리더라도 날씨가 더워지면 다시 올려야하기 떄문이다.

이 과정은 방 안의 온도를 조절하는 필요성이 있는 한 끝없이 이어진다.

 

감가율 (Discount Factor)

그렇다면 보상은 어떻게 모델링 해야할까?

기존과 같이 모델링 한다면, 보상을 다 더한 값은 결국 무한이 될것이다.

$$G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... $$

 

한가지 해결책은 미래의 보상을 감가율로 조절하는 것이다.

감가율은 대개 0과 1 사이의 값으로 다음과 같이 정의 된다.

$$0 \le \gamma \lt 1$$

 

감가율을 적용해 위의 결과 수식을 다시 도출하면 다음과 같다:

$G_t \dot{=} R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{k-1}R_{t+k} + ... $

 

이를 적용하면 현재와 가까운 보상은 최종 결과에 더 중요한 수치가 되고,

미래의 보상은 덜 중요한 수치가 된다.

또한 먼 미래의 보상의 경우 감가율이 0에 가까워지기 때문에,

위 수식은 유한함을 보장하게 된다.

$G_t = \sum^\infty_{k=0} \gamma^k R_{t+k+1}$

 

만약 감가율 $\gamma$가 1에 가깝다면, 에이전트는 미래의 보상을 더 많이 고려할 것이고,

0에 가깝다면 너무 근시간의 보상만을 고려하게 될 것이다.

 

재귀적인 계산

또한 정의한 보상들과 같이 현재의 보상을 계산할때는 재귀적인 계산을 적용할 수 있다.

현재의 보상을 계산하려면 다음과 같이 계산할 수 있다:

$G_t \dot{=} R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{k-1}R_{t+k} + ... $

$\;\;\;\; = R_{t+1} + \gamma G_{t+1}$

 

미래의 결과값은 미래의 보상을 모두 포함하고 있고,

이는 유한하다는 가정하에 있기 때문에,

위와같이 짧은 수식으로 변환될 수 있다.

이러한 짧고 간결한 보상 수식 덕분에 DQN과 같은 강력한 알고리즘이 효과를 발휘할 수 있다.

 

728x90
반응형

'데이터사이언스 > 강화학습' 카테고리의 다른 글

강화학습 - (9) 벨만방정식  (0) 2020.09.14
강화학습 - (8) 정책과 가치  (0) 2020.09.14
강화학습 - (6) 보상  (2) 2020.09.07
강화학습 - (5) 마르코프 결정과정  (0) 2020.09.06
강화학습 - (4) UCB  (0) 2020.08.27