728x90
반응형

입실론그리디 5

멀티암드밴딧 - (1-5) 확률적 밴딧: 참고 문헌 및 용어 정리

확률적 밴딧 1.5 참고 문헌 및 용어 정리 이번 챕터는 멀티암드밴딧에 폭넓게 유용한 몇가지 기법들을 소개한다. 이는 네가지 알고리즘 기법 (탐색-우선, 입실론-그리디, 연속적 제거, UCB기반 슬롯 선택), 분석을 위한 완전이벤트 기법, 그리고 수식 (1.12)에 설명한 UCB 트릭이다. 연속적 제거는 Even-Dar et al. (2002)에서, $UCB1$는 Auer et al. (2002a)에서 소개되었다. 탐색-우선과 입실론-그리디는 매우 긴 시간 동안 알려져 왔고, 이들은 최초의 언급자에 대한 부분은 명확하지 않다. 최초의 $UCB1$ 버전은 다음과 같은 신뢰 반경을 가졌다. $r_t(a) = \sqrt{\alpha \cdot \frac{ln(t)}{n_t(a)}}$ (1.14) $\alpha..

강화학습 - (15) 입실론 그리디

강화학습 탐색적 시작의 문제점 지난 포스팅에서 이야기한 탐색적 시작은 현실의 문제에서 많은 문제점들이 있다. 만약 상태 공간이 아주 큰 문제라면, 처음만 랜덤이 이 기법은 모든 상태에 대한 충분한 탐색이 불가능해진다. 첫 상태에 대한 샘플링이 비효율적이고 쉽지 않기 떄문에, 이는 비효율적인 기법이 된다. 입실론 소프트 정책 (Epsilon Soft Policy) 입실론 소프트란 모든 행동에 대해서 최소한 입실론 나누기 행동의 숫자의 확률을 부여하는 것을 말한다. 다른말로 해 각각의 행동은 적어도 $\frac{\epsilon}{|A|}$의 확률을 가지게 되는 것이다. 입실론 소프트 정책을 활용하면 우리는 더이상 탐색적 시작점을 선택하지 않아도 된다. 입실론 소프트 정책을 통해서 여러 상태들에 대해서 연속적..

강화학습 - (3) 탐색과 활용

강화학습 탐색과 활용 (Exploration & Exploitation Trade-off) 탐색 탐색(Exploration)은 에이전트가 장기적인 이익을 추구할 수 있도록 환경에 대한 지식을 얻을 수 있게 해준다. 예제) 한 사람이 가장 좋아하는 식당에 가서 갈 때마다 위 세가지 메뉴중 하나의 메뉴를 선택한다. $q^*(a)$는 각 메뉴의 가치를, $q(a)$는 예측된 메뉴의 가치를, $N(a)$는 해당 메뉴를 선택한 횟수를 의미한다. 선택할 때마다 이 사람은 각 메뉴에 대해 평가하고, 이를 통해 $q(a)$를 갱신한다. 갱신된 $q(a)$값이 곧 탐색을 통해 얻은 에이전트(식당에 간 사람)의 지식이 된다. 이 지식을 기반으로 이 사람은 추후에 어떤 음식을 주문할 것인지를 선택하게 된다. 활용 활용(Ex..

강화학습 - (2) 행동가치함수

강화학습 행동가치함수 (Action-Value Function) 행동가치함수의 정의를 다시한번 살펴보자: $$q^*(a) \dot{=} \mathbb{E}[R_t | A_t = a] \;\; \forall a \in {1, ..., k}$$ 위 수식에서 행동가치함수 $q*(a)$는 모든 행동 a에 대해서, $A_t = a$가 주어졌을 때 예상되는(expected) $R_t$로 정의한다. (이 행동가치함수는 강화학습에서 Q함수 또는 Q값이라고 불리는 값이다.) 샘플평균기법 (Sample-average method) 에이전트는 보통 $q^*(a)$를 시작부터 알 수는 없다. 따라서 보통의 강화학습에서는 이를 추정(estimate)한다. 이를 추정하는 방법 중 하나가 샘플평균기법이다. $$\begin{equa..

강화학습 공부 - (4) Model Free Control

Model Free Control Model Free Control은 다음과 같은 문제들을 풀기 위함이다: 문제에서 MDP가 주어져 있지 않지만, 경험을 통해 간단하게 만들 수 있는 경우 MDP가 주어져 있지만, 환경이 너무 크기 때문에 샘플링을 통해 행동하는 경우 On-Policy vs Off-Policy On-Policy 행동하면서 학습하는 문제 정책 $\pi$를 통한 경험의 샘플링을 통해 정책 $\pi$ 학습시키는 것 , 즉 행동하는대로 학습하는 형태 또한 검증시에도 같은 정책을 사용한다. Off-Policy 다른 (에이전트의) 행동 패턴을 통해 학습하는 문제 다른 에이전트의 정책 $\mu$를 통핸 경험의 샘플링을 통해 정책 $\pi$를 학습시키는 것, 즉 다른 누군가의 행동을 보고 학습하는 형태 ..

728x90
반응형