강화학습 중요도 샘플링 (Importance Sampling) 중요도 샘플링이랑 다른 분포에서 샘플링된 값을 가지고, 구하고자 하는 분포(타깃 분포)에서의 기댓값을 유추하는 방법이다. 랜덤 변수 $x$가 분포 $b$에서 샘플링 되었다고 가정해보자: Sample: $x ~ b$ Estimate: $\mathbb{E}_{\pi}[X]$ 여기서 우리는 $X$의 기댓값을 구하고 싶지만, 분포 $b$에서의 샘플 평균을 그대로 사용할 수는 없다. 왜냐하면 이 방식으로 구하게 되면 타깃 분포에서의 기댓값이 아닌 분포 $b$에서의 기댓값이 구해지기 때문이다. 먼저 기댓값의 정의를 다시한번 살펴보자: (0)$\mathbb{E}_{\pi}[X] \dot{=} \sum_{x \in X} x\pi(x)$ (1)$= x \pi..