강화학습 탐색과 활용 (Exploration & Exploitation Trade-off) 탐색 탐색(Exploration)은 에이전트가 장기적인 이익을 추구할 수 있도록 환경에 대한 지식을 얻을 수 있게 해준다. 예제) 한 사람이 가장 좋아하는 식당에 가서 갈 때마다 위 세가지 메뉴중 하나의 메뉴를 선택한다. $q^*(a)$는 각 메뉴의 가치를, $q(a)$는 예측된 메뉴의 가치를, $N(a)$는 해당 메뉴를 선택한 횟수를 의미한다. 선택할 때마다 이 사람은 각 메뉴에 대해 평가하고, 이를 통해 $q(a)$를 갱신한다. 갱신된 $q(a)$값이 곧 탐색을 통해 얻은 에이전트(식당에 간 사람)의 지식이 된다. 이 지식을 기반으로 이 사람은 추후에 어떤 음식을 주문할 것인지를 선택하게 된다. 활용 활용(Ex..