강화학습 모델 우리는 평소에 계획을 많이 세운 뒤 일을 실행하는 상황이 있고, 별 생각 없이 일을 진행하는 상황이 있다. 강화학습에서도 다이나믹 프로그래밍 처럼 수행하는 일에 대한 모든 지식을 수반하는 모델을 만들 수도 있고, 반대로 모델이 없이 샘플링 기반의 학습을 진행할 수도 있다. 강화학습에서는 이러한 계획을 모델이라고 한다. 모델은 환경의 유동성(dynamics)에 대한 정보를 저장한다. 이는 현재 상태에서 한 행동을 취했을 떄, 다음에 받는 상태와 보상에 대한 정보, 즉 전환(transition)과 보상(reward)의 유동성에 대한 정보이다. 계획 강화학습에서 모델은 에이전트에게 계획을 가능하게 한다. 다른말로 하면 모델은 에이전트가 환경에 대해 어떻게 사전 지식을 갖고 생각하는지에 대한 모델..