강화학습벨만방정식 (Bellman Equation) 현실에서 우리는 피드백을 받지 않고도 많은 것을 배울 수 있다.처음 자전거를 타고 있다고 가정해 보자.자전거를 타다가 넘어진 뒤 바위에 부딛쳐 무릎을 다쳤다면,이 경험은 우리 머리속에 기억이 될 것이다.다시 자전거를 타다가 비슷한 경험을 하게 된다면,우리는 머리속으로 바위 근처에 갔을 때 밸런스를 유지하지 못하면,바위에 부딛쳐 무릎을 다치게 된다는 것을 알 수 있을 것이다. 이처럼 강화학습에서도 미래의 보상을 전부 경험하지 않더라도,현재의 상태에서 예측을 통해 미래의 상태를 가늠해 볼 수 있다.벨만 방정식은 이처럼 현재 상태와 미래의 성공확률에 대한 연결을 수식화 해준다. 상태 가치 벨만방정식 (State-value Bellman Equation)상태 ..