강화학습행동가치함수 (Action-Value Function)행동가치함수의 정의를 다시한번 살펴보자:$$q^*(a) \dot{=} \mathbb{E}[R_t | A_t = a] \;\; \forall a \in {1, ..., k}$$위 수식에서 행동가치함수 $q*(a)$는 모든 행동 a에 대해서, $A_t = a$가 주어졌을 때 예상되는(expected) $R_t$로 정의한다.(이 행동가치함수는 강화학습에서 Q함수 또는 Q값이라고 불리는 값이다.) 샘플평균기법 (Sample-average method)에이전트는 보통 $q^*(a)$를 시작부터 알 수는 없다.따라서 보통의 강화학습에서는 이를 추정(estimate)한다.이를 추정하는 방법 중 하나가 샘플평균기법이다. $$\begin{equation}\be..