강화학습 정책 경사 보상 모델링 강화학습에서 보상을 모델링 하는 방법은 크게 세가지가 있다. 먼저 에피소드 태스크의 경우, 우리는 해당 에피소드의 모든 보상을 더하고, 에피소드마다 최종적으로 얻어지는 모든 보상의 합을 최대화 한다: $G_t = \sum^{T}_{t=0} R_t$ 연속적인 태스크의 경우, 우리는 바로 다음 보상에 초점을 맞추고, 미래의 보상에는 감가율을 더해준다: $G_t = \sum^{\infty}_{t=0} \gamma^t R_t$ 마지막으로, 전체 보상의 합에서 평균 보상을 빼주는 방식이다. 각 시점에 에이전트가 받는 보상에서 평균 보상을 빼줌으로서, 연속적인 태스크임에도 무한이 아닌 보상으로 학습할 수 있다: $G_t = \sum^{\infty}_{t=0} R_t - r(\pi)$..