강화학습
연속적인 결정과정 (Continuing Task)
지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다.
하지만 많은 현실의 문제들은 연속적인 경우가 많다.
에피소드식과 연속적인 결정과정의 차이
에피소드식 결정과정
- 자연스럽게 에피소드 단위로 분리할 수 있다.
- 에피소드는 최종상태(terminal state) 에서 끝이 난다.
- 각 에피소드는 독립적(independent)이다.
- 최종 결과값은 모든 보상의 합이다.
- $G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$
연속적인 결정과정
- 에이전트와 환경의 상호작용이 끝없이 이어진다.
- 최종상태가 존재하지 않는다.
예제)
방 안의 온도를 조절하는 에이전트가 있다고 하자.
이 경우는 연속적인 결정과정에 해당한다.
에이전트가 온도를 내리더라도, 저녁이 되어 날씨가 추워지면 다시 올려야하고,
온도를 올리더라도 날씨가 더워지면 다시 올려야하기 떄문이다.
이 과정은 방 안의 온도를 조절하는 필요성이 있는 한 끝없이 이어진다.
감가율 (Discount Factor)
그렇다면 보상은 어떻게 모델링 해야할까?
기존과 같이 모델링 한다면, 보상을 다 더한 값은 결국 무한이 될것이다.
$$G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... $$
한가지 해결책은 미래의 보상을 감가율로 조절하는 것이다.
감가율은 대개 0과 1 사이의 값으로 다음과 같이 정의 된다.
$$0 \le \gamma \lt 1$$
감가율을 적용해 위의 결과 수식을 다시 도출하면 다음과 같다:
$G_t \dot{=} R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{k-1}R_{t+k} + ... $
이를 적용하면 현재와 가까운 보상은 최종 결과에 더 중요한 수치가 되고,
미래의 보상은 덜 중요한 수치가 된다.
또한 먼 미래의 보상의 경우 감가율이 0에 가까워지기 때문에,
위 수식은 유한함을 보장하게 된다.
$G_t = \sum^\infty_{k=0} \gamma^k R_{t+k+1}$
만약 감가율 $\gamma$가 1에 가깝다면, 에이전트는 미래의 보상을 더 많이 고려할 것이고,
0에 가깝다면 너무 근시간의 보상만을 고려하게 될 것이다.
재귀적인 계산
또한 정의한 보상들과 같이 현재의 보상을 계산할때는 재귀적인 계산을 적용할 수 있다.
현재의 보상을 계산하려면 다음과 같이 계산할 수 있다:
$G_t \dot{=} R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{k-1}R_{t+k} + ... $
$\;\;\;\; = R_{t+1} + \gamma G_{t+1}$
미래의 결과값은 미래의 보상을 모두 포함하고 있고,
이는 유한하다는 가정하에 있기 때문에,
위와같이 짧은 수식으로 변환될 수 있다.
이러한 짧고 간결한 보상 수식 덕분에 DQN과 같은 강력한 알고리즘이 효과를 발휘할 수 있다.
'데이터사이언스 > 강화학습' 카테고리의 다른 글
강화학습 - (9) 벨만방정식 (0) | 2020.09.14 |
---|---|
강화학습 - (8) 정책과 가치 (0) | 2020.09.14 |
강화학습 - (6) 보상 (2) | 2020.09.07 |
강화학습 - (5) 마르코프 결정과정 (0) | 2020.09.06 |
강화학습 - (4) UCB (0) | 2020.08.27 |