강화학습K-armed bandit의 한계k-armed bandit 혹은 MAB 문제에서는 각 밴딧이 주는 확률과 보상이 같았다.하지만 현실의 문제에서는 항상 그렇지 않다.서로 다른 상황에서 같은 행동을 취하더라도 같은 보상을 얻을수는 없다.또한 현재 취하는 행동이 추후에 받을 보상에 영향을 줄 수도 있다.마르코프 결정과정은 이러한 두가지의 관점을 반영하고자 고안된 모델이다. 예제 1)토끼 한마리가 왼쪽의 브로콜리와 오른쪽의 당근을 두고 고민하고 있다.당근은 10의 보상을, 브로콜리는 3의 보상을 준다고 하면, 토끼는 당근을 선택할것이다.그리고 같은 토끼에게 반대의 상황, 즉 당근과 브로콜리의 위치를 바꿔준다면,토끼는 다시한번 당근을 선택할것이다.k-armed bandit 문제는 이러한 상황을 고려하지는 ..