728x90
반응형

상태가치함수 3

강화학습 - (14) 몬테카를로

강화학습 몬테카를로 (Monte-Carlo) 몬테카를로는 강화학습 뿐만 아니라, 더 넓은 의미에서 랜덤 샘플링 기반의 반복적인 샘플링 기법으로 알려져 있다. 강화학습에서는 경험, 즉 상태, 행동, 보상의 시퀀스에 기반해서 가치를 추정하는데 사용된다. 경험에서 학습하는 것은 생각보다 많이 효율적이다. 이는 환경에 대한 사전 지식이 없이도 가치함수를 추정할 수 있게 해주기 때문이다. 다이나믹 프로그래밍의 한계 다이나믹 프로그래밍을 강화학습에 사용하려면, 에이전트는 환경의 상태들간의 상태전환확률(transition probability)를 알고있어야 한다. 하지만 특정 문제들에서 우리는 이 상태정환확률을 할수 없다. 예제) 우리가 미래의 날씨에 대해서 예측한다고 해보자. 날씨를 변화시키는 데에는 너무나도 많은..

강화학습 - (9) 벨만방정식

강화학습 벨만방정식 (Bellman Equation) 현실에서 우리는 피드백을 받지 않고도 많은 것을 배울 수 있다. 처음 자전거를 타고 있다고 가정해 보자. 자전거를 타다가 넘어진 뒤 바위에 부딛쳐 무릎을 다쳤다면, 이 경험은 우리 머리속에 기억이 될 것이다. 다시 자전거를 타다가 비슷한 경험을 하게 된다면, 우리는 머리속으로 바위 근처에 갔을 때 밸런스를 유지하지 못하면, 바위에 부딛쳐 무릎을 다치게 된다는 것을 알 수 있을 것이다. 이처럼 강화학습에서도 미래의 보상을 전부 경험하지 않더라도, 현재의 상태에서 예측을 통해 미래의 상태를 가늠해 볼 수 있다. 벨만 방정식은 이처럼 현재 상태와 미래의 성공확률에 대한 연결을 수식화 해준다. 상태 가치 벨만방정식 (State-value Bellman Equ..

강화학습 - (8) 정책과 가치

강화학습 정책 (Policy) 정책은 에이전트가 어떻게 행동을 선택하는지를 정의한다. 강화학습에서의 정책은 보통 $\pi$로 정의한다. 확정적 정책 (Deterministic Policy) 확정적 정책은 위 그림에서와 같이 각 상태당 정해진 행동이 존재한다. 보이는 바와 같이 에이전트는 각기 다른 상태에서 같은 행동을 선택할 수도 있고, 어떠한 행동은 아예 선택하지 않을 수도 있다. $\pi(s) = a$ 위 그림을 테이블로 표현하면 다음과 같이 표현 가능하다: State Action $s_0$ $a_1$ $s_1$| $a_0$ $s_2$ $a_0$ 예제) 에이전트가 집으로 가는 문제를 풀고있다고 하자. 에이전트는 상하좌우로 움직일 수 있고, 그림의 각 방향 화살표는 하나의 정책이 된다. 각 화살표는 각..

728x90
반응형