멀티암드밴딧 - (1-2) 확률적 밴딧: 균등한 탐색

데이터사이언스/강화학습

멀티암드밴딧 - (1-2) 확률적 밴딧: 균등한 탐색

_금융덕후_ 2021. 3. 10. 18:45

728x90

확률적 밴딧

1.2 균등한 탐색

간단한 아이디어로부터 시작한다: 이전에 관측된 결과가 무엇이든 슬롯을 균등하게(같은 비율로) 탐색(explore)하고, 경험적으로 최적의 슬롯을 활용(exploit)한다. "탐색-우선"으로 알려진 이 알고리즘은 첫 라운드 들을 탐색에 집중하게 하고, 나머지 라운드들을 활용에 사용한다.

알고리즘 1.1: 매개변수 N을 사용한 탐색-우선 알고리즘

1. 탐색 단계: 각 슬롯을 $N$번 선택에 시도한다;
2. 가장 높은 평균 보상을 주는 슬롯 $\hat{a}$를 선택한다 (동점시에는 임의의 선택을 따른다);
3. 활용 단계: 슬롯 $\hat{a}$를 나머지 모든 라운드에 사용한다.

매개변수 $N$은 미리 선정된 값이다. 추후에 이 값은 시간수평선 $T$와 슬롯의 수 $K$의 함수로서 후회값을 최소화 하는 방향으로 선정될 것이다. 이제 이 알고리즘의 후회값을 분석해보자.

탐색 단계 이후의 각 행동 $a$에 대한 평균보상을 $\bar{\mu}(a)$로 표기한다.우리는 평균 보상을 실제 기대되는 보상에 대한 좋은 예측값이 되기를 원한다. 예를 들면, $|\bar{\mu}(a) - \mu(a)|$ 값이 작아야 한다. 우리는 "호에프딩의 부등식"(Hoeffding inequality)을 사용해 평균과 실제 기대값의 편차를 측정할 수 있다. 신뢰 반경을 $r(a) = \sqrt{\frac{2 log T}{N}}$으로 정의하고, 호에프딩의 부등식을 사용하면 다음과 같다:

$Pr{|\bar{\mu} - \mu(a)| \le r(a)} \ge 1 - \frac{2}{T^4}$, (1.2)

따라서 평균과 실제 기대값의 편차가 커질 확률은 매우 작다.

우리는 수식(1.2)가 모든 슬롯에 대해 만족하는 사건을 "완전이벤트"(clean event)로 정의한다. 우리는 완전이벤트와 반대되는 이벤트를 "악성이벤트"(bad event)로 정의하고, 이 둘을 분리하여 다룬다.

Remark 1.2

이 접근법으로, 증명의 다른 모든 확률에 대한 부분을 걱정할 필요가 없어졌다. 완전이벤트를 정의하고 수식(1.2)를 만족하는 것 만으로 확률에 대한 부분은 해결된다. 또한, 우리는 악성이벤트가 일어날 확률이 너무 작기 때문에 악성이벤트에 대한 부분 역시 고려하지 않아도 된다. 우리는 이 "완전이벤트"접근법을 기술적인 사항을 간단히 하기 위해 다른 여러가지 증명에 사용할 것이다. 이 접근법의 단점은 확률에 대해 더 세심히 다뤄져야 하는 증명을 통해 얻어질 수 있는 비교적 좋지 않은 상수를 자주 초래한다.

단순함을 위해, 슬롯이 $K = 2$인 경우를 살펴보자. 완전이벤트 상황을 살펴보자. 만약 우리가 둘 중 더 좋지 않은 슬롯을 선택했을 때, 두 슬롯의 기대되는 보상값의 차이가 그리 크지 않기 때문에, 상황은 그렇게 나쁘지 않다는 것을 증명해본다.

최적의 슬롯을 $a^*$로 정의하고 알고리즘이 $a \ne a^*$인 슬롯을 선택했다고 하자. 이는 측정된 $a$의 평균 보상이 $a^*$보다 높았기 때문, 즉 $\bar{\mu}(a) \gt $\bar{\mu}(a^*)$를 만족했기 때문일 것이다. 이는 완전이벤트이기 때문에 다음을 만족한다:

$\mu(a) + r(a) \ge \bar{\mu}(a) \ge \mu(a^*) - r(a^*)$

위 수식을 재정의 하면 다음과 같다:

$\mu(a^*) - \mu(a) \le r(a) + r(a^*) = O(\sqrt{\frac{log T}{N}})$

따라서, 각 라운드의 탐색 단계는 최대 $O(\sqrt{\frac{log T}{N}})$ 만큼 후회값에 기여한다. 그리고 각 라운드의 탐색 단계는 최대 1까지는 거의 기여하지 않는다. 우리는 두개의 항(첫 $N$라운드 만큼의 탐색과 $T - 2N$라운드 만큼의 활용)으로 나누어져 있는 후회값의 상계(upper bound)를 다음과 같이 유도한다:

$R(T) \le N + O(\sqrt{\frac{log T}{N}} \times (T - 2N))$

$\quad\quad\;\; \le N + O(\sqrt{\frac{log T}{N}} \times (T))$

첫 라운드 이전에 알고리즘에 주어진다면, 우리는 $N$에 어떤 값이든 설정할 수 있다. 따라서 우리는 오른쪽 항을 대략적으로 최소화 하는 방향으로 $N$을 선정할 수 있다. 덧셈의 두 항이 한쪽은 $N$에 의해 단조적으로 증가하고, 다른 항은 $N$에 의해 단조적으로 감소한다는 것을 유의하여, 우리는 두 항이 대략적으로 거의 같게 되는 방향으로 $N$을 설정할 수 있다. $N = T^{\frac{2}{3}} (log T)^{\frac{1}{3}})$ 으로 설정하면, 우리는 다음 수식을 얻을 수 있다:

$R(T) \le O(T^{\frac{2}{3}} (log T)^{\frac{1}{3}}))$

증명을 마무리하기 위해, 우리는 악성이벤트의 경우를 분석해야 한다. 후회값은 최대 $T$가 될 수 있고 (각 라운드의 후회값은 최대 1), 악성이벤트는 매우 작은 확률($\frac{1}{T^4}$)로 발생하기 때문에, 이 경우의 (기대되는) 후회값은 무시될 수 있다. 이를 수식화하면,

$\mathbb{E}[R(T)] = \mathbb{E}[R(T) | 완전이벤트] \times Pr[완전이벤트] + \mathbb[R(T) | 악성이벤트] \times Pr[악성이벤트]$

$\quad\quad\quad\quad \le \mathbb{E}[R(T) | 완전이벤트] + T \times O(T^{-4})$

$\quad\quad\quad\quad \le O(\sqrt{log T} \times T^{\frac{2}{3}})$

(1.3)

위 수식으로 $K=2$개의 슬롯에 대한 증명을 마친다.

$K > 2$개의 슬롯에 대해서 우리는 수식 (1.2)에 $K$개의 슬롯에 대한 "합집합 경계" (union bound, 부울의 부등식)를 적용하고, 다른 매개변수에 대해서는 위에서와 같은 조건을 따를 수 있다. 우리는 각 슬롯을 최소 한번 이상 사용하기 때문에 $T$는 $K$보다 크다는 것을 알 수 있다. 최종 후회값 계산을 위해서 우리는 $K$에 영향을 미치는 요소들을 알아볼 필요가 있다: 특별히, 탐색 단계에서 축척된 후회값의 상계는 $KN$에 설정된다는 점이다. 이를 증명하기 위해 우리는 수식에 다음과 같이 대입한다: $R(T) \le NK + O(\sqrt{\frac{log T}{N}} \times T)$. 전과 동일하게, 우리는 덧셈의 두 항을 대략적으로 최소화 함으로서, 이 수식을 대략적으로 최소화 한다. 더 자세하게는 $N = (\frac{T}{K})^{\frac{2}{3}} \cdot O(log T)^{\frac{1}{3}}$을 대입한다. 수식 (1.3)과 동일하게 증명을 완료하면 우리는 다음 이론을 도출할 수 있다:

Theorem 1.3

탐색-우선 알고리즘은 후회값 $E[R(T)] \le T^{\frac{2}{3}} \times O(K log T)$을 얻는다.

탐색-우선 알고리즘의 한가지 문제점은 탐색단계에서의 성능이 매우 좋지 않다는 점이다. 시간에 다라 탐색을 균등하게 배분 하는 것이 더 좋다. 이는 입실론-그리디 (epsilon-greedy) 알고리즘을 통해 구현된다:

알고리즘 1.2: 탐색 확률($\epsilon_1$, $\epsilon_2$, ...)을 사용한 입실론-그리디

for 라운드 t = 1, 2, ... do
    성공 확률 $\epsilon_t$로 동전을 던진다;
    if 성공 then
        탐색: 균등한 랜덤 확률로 한개의 슬롯을 선택
    else
        활용: 지금까지 가장 높은 평균 보상을 주는 슬롯을 선택
end

단기간에 걸쳐 최적의 옵션을 선택하는 것을 컴퓨터과학에서는 "탐욕적"(greedy) 선택이라 부르고, 이로부터 "입실론-그리디" 알고리즘의 이름이 파생되었다. 탐색 기법은 "탐색-우선"알고리즘에서의 "라운드-로빈"(round-robin) 탐색과 유사하게 모든 슬롯에 대해 균등한 기회를 부여한다. 이로서 탐색 기법은 시간에 따라 균등하게 배분 되었기 때문에, 작은 $t$에 대해서도 의미있는 후회값의 범위(bound)를 도출해낼 수 있다. 우리는 탐색-우선에서의 시간수평선 $T=t$와 유사하게, 기대되는 탐색의 횟수가 $t^{\frac{2}{3}}$에 의해 $t$로 반올림 될 수 있도록, 탐색 확률 $\epsilon_t ~ t^{-\frac{1}{3}}$을 활용한다 ($K$와 $log t$에 대한 의존성은 잠시 무시한다). 후회값의 범위는 Theorem 1.3과 동일하게 도출할 수 있지만, 이제는 모든 라운드 $t$에 대해서도 만족하게 된다. 이 증명은 다음 섹션에서 소개될 더 정제된 완전이벤트에 의존한다.

Theorem 1.4

탐색 확률 $\epsilon_t = t^{-\frac{1}{3}} \times (K log t)^{\frac{1}{3}}$을 사용한 입실론-그리디 알고리즘은 각 라운드 $t$에 대해 $\mathbb{E}[R(t)] \le t^{\frac{2}{3}}$의 후회값의 범위를 취득할 수 있다.

이 글은 아래 링크의 책을 번역한 글 입니다.

arxiv.org/abs/1904.07272

Introduction to Multi-Armed Bandits

Multi-armed bandits a simple but very powerful framework for algorithms that make decisions over time under uncertainty. An enormous body of work has accumulated over the years, covered in several books and surveys. This book provides a more introductory,

arxiv.org

728x90

저작자표시 (새창열림)

'데이터사이언스 > 강화학습' 카테고리의 다른 글

멀티암드밴딧 - (1-4) 확률적 밴딧: 초기정보를 가진 밴딧 (0)	2021.03.18
멀티암드밴딧 - (1-3) 확률적 밴딧: 적응적 탐색 (0)	2021.03.16
멀티암드밴딧 - (1-1) 확률적 밴딧: 모델과 예제 (0)	2021.03.07
강화학습 - (26-2) REINFORCE 코드예제 2 (0)	2020.12.29
강화학습 - (26-1) REINFORCE 코드예제 (0)	2020.12.21

현재글멀티암드밴딧 - (1-2) 확률적 밴딧: 균등한 탐색

금융덕후