강화학습 Q러닝 Q러닝 알고리즘은 SARSA와 많이 유사하다. 위 알고리즘을 보면 SARSA와는 다르게, 행동가치함수를 갱신할 때 최댓값(maximum)을 취한다. 그렇다면 왜 Q러닝은 다음 상태-행동 페어 대신 최댓값을 취할까? 다시한번 행동가치함수 벨만방정식을 살펴보자. $q_{\pi}(s,a) = \sum_{s',r} p(s',r|s,a) \left (r + \gamma \sum_{a'} \pi(a'|s') q_{\pi} (s',a')\right)$ 아래는 이에 기반한 SARSA의 갱신 수식이다. $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha (R_{t+1} + \gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t))$ 하지만 Q러닝은 기본적인 벨만방정식이 ..