강화학습 예측속의 불확실성 (Uncertainty in Estimates) UCB는 탐색(exploration)에 사용되는 기법 중 하나로 밴딧 문제를 해결하는 논문들에 많이 나온다. 이 기법은 강화학습의 예측에서의 불확실성을 해결하기 위한 기법이다. 행동가치 Q(a)값을 예측한다고 가정해 보자. 그리고 해당 Q값은 어떠한 불확실성을 가지고 있다. 이 불확실성을 표현하기 위해 신뢰구간(confidence interval)을 설정한다. 따라서 이 신뢰구간 사이에 놓인 값들은 불확실성에 대해 확신이 있다고 보는 것이다. 만약 이 신뢰 구간이 작다면, 에이전트는 이 Q(a)값에 대해 엄청난 확신을 가지는 것이다. 반대로 이 신뢰 구간이 크다면, 에이전트는 이 Q(a)값에 대해 확신이 없는 것이다. 낙관적인 초..