강화학습 연속적인 결정과정 (Continuing Task)지금까지 학습한 강화학습의 예제들은 대부분 에피소드에 기반한 결정과정이었다.하지만 많은 현실의 문제들은 연속적인 경우가 많다. 에피소드식과 연속적인 결정과정의 차이에피소드식 결정과정자연스럽게 에피소드 단위로 분리할 수 있다.에피소드는 최종상태(terminal state) 에서 끝이 난다.각 에피소드는 독립적(independent)이다.최종 결과값은 모든 보상의 합이다.$G_t \dot{=} R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$연속적인 결정과정에이전트와 환경의 상호작용이 끝없이 이어진다.최종상태가 존재하지 않는다.예제)방 안의 온도를 조절하는 에이전트가 있다고 하자.이 경우는 연속적인 결정과정에 해당한다.에이전트가..