강화학습예측속의 불확실성 (Uncertainty in Estimates)UCB는 탐색(exploration)에 사용되는 기법 중 하나로 밴딧 문제를 해결하는 논문들에 많이 나온다.이 기법은 강화학습의 예측에서의 불확실성을 해결하기 위한 기법이다. 행동가치 Q(a)값을 예측한다고 가정해 보자.그리고 해당 Q값은 어떠한 불확실성을 가지고 있다.이 불확실성을 표현하기 위해 신뢰구간(confidence interval)을 설정한다.따라서 이 신뢰구간 사이에 놓인 값들은 불확실성에 대해 확신이 있다고 보는 것이다.만약 이 신뢰 구간이 작다면, 에이전트는 이 Q(a)값에 대해 엄청난 확신을 가지는 것이다.반대로 이 신뢰 구간이 크다면, 에이전트는 이 Q(a)값에 대해 확신이 없는 것이다. 낙관적인 초기값 (Opti..