강화학습 연속적인 결정과정 (Continuing Task) 지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다. 하지만 많은 현실의 문제들은 연속적인 경우가 많다. 에피소드식과 연속적인 결정과정의 차이 에피소드식 결정과정 자연스럽게 에피소드 단위로 분리할 수 있다. 에피소드는 최종상태(terminal state) 에서 끝이 난다. 각 에피소드는 독립적(independent)이다. 최종 결과값은 모든 보상의 합이다. $G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$ 연속적인 결정과정 에이전트와 환경의 상호작용이 끝없이 이어진다. 최종상태가 존재하지 않는다. 예제) 방 안의 온도를 조절하는 에이전트가 있다고 하자. 이 경우는 연속적인 결정..