강화학습탐색과 활용 (Exploration & Exploitation Trade-off)탐색탐색(Exploration)은 에이전트가 장기적인 이익을 추구할 수 있도록 환경에 대한 지식을 얻을 수 있게 해준다. 예제)한 사람이 가장 좋아하는 식당에 가서 갈 때마다 위 세가지 메뉴중 하나의 메뉴를 선택한다.$q^*(a)$는 각 메뉴의 가치를, $q(a)$는 예측된 메뉴의 가치를, $N(a)$는 해당 메뉴를 선택한 횟수를 의미한다.선택할 때마다 이 사람은 각 메뉴에 대해 평가하고, 이를 통해 $q(a)$를 갱신한다.갱신된 $q(a)$값이 곧 탐색을 통해 얻은 에이전트(식당에 간 사람)의 지식이 된다.이 지식을 기반으로 이 사람은 추후에 어떤 음식을 주문할 것인지를 선택하게 된다. 활용활용(Exploration..