강화학습 불확실성과 결정과정 (Uncertainty & Decision Process)강화학습에서는 Trial-and-error를 통해서 여러차례 반복을 통해 학습을 하는 경우가 많다.보통의 기계학습과는 다르게 에이전트가 놓여진 환경에서 스스로 학습 데이터를 만들어내고 학습한다.처음보는 불확실한 환경속에서 에이전트는 여러 차례 시도를 통해 학습하는데,이러한 프로세스를 불확실성(uncertainty) 속의 결정과정(decision making process) 라고 한다. K-armed bandit 문제 이러한 문제는 강화학습에서 종종 Bandit문제로 표현된다.Bandit이란 슬롯머신의 손잡이를 일컷는 말로,각 슬롯머신 손잡이를 선택했을 때 각 손잡이를 당겼을 때 얻는 보상이 다를때의 상황을 이야기한다.이..