728x90
반응형

머신러닝 81

데이터사이언스 - (4) 분포

데이터사이언스 분포 (distribution) 분포란 데이터의 값이 어떠한 형태로 퍼져 있는지에 대한 정보이다. 표본분포 (sampling distribution) 표본 분포란 모집단에서 얻은 샘플 데이터가 나타내는 형태에 대한 정보이다. 좋은 표본의 분포는 모집단의 분포를 크게 반영한다. 중심극한정리 (central limit theorem) 중심극한정리는 표본의 크기가 커질 수록 표본분포는 정규분포를 따르는 경향이 있다는 이론이다. 모집단이 정규분포가 아니더라도, 표본의 크기가 충분하다면 정규분포를 따른다고 가정한다. 신뢰구간 (confidence interval) 신뢰구간이란 모수가 실제로 포함될 것으로 예측되는 범위이다. 보통 신뢰구간은 어떠한 큰 수치(예, 95% 혹은 90%)로 표현이 된다. ..

카테고리 없음 2021.01.30

데이터사이언스 - (3) 표본

데이터사이언스 표본 (sample) 대개의 경우 모집단을 정확하기 알 수 있는 길은 없다. 또한 모집단을 정확히 밝혀낸다고 해도, 크게 의미있는 결과를 얻어내는 것은 드물것이다. 따라서 분석이나 추론을 할 때, 모집단을 잘 반영한 표본집단을 추출한다. 추출된 표본은 편향을 최소화하여 모집단을 잘 반영해야만, 실제 분석과 추론이 효과적으로 이루어질 수 있다. 표본(sample)이란 큰 데이터의 집합으로부터 추출한 더 작은 데이터의 집합이다. 모집단(population)이란 표본이 추출된 큰 데이터의 집합을 말한다. 표본추출 (sampling) 표본을 추출할 때 중요한 것은 표본이 모집단을 잘 반영해야 한다는 것이다. 이를 통계적 대표성이라고 하는데, 대표성을 띄지 못하는 표본을 표본편향(sample bia..

데이터사이언스 - (2) 기술통계

데이터사이언스 기술통계(Descriptive Statistics)란 데이터를 통계적으로 설명할 수 있는 기법들을 말한다. 많은 경우 분석에 사용될 데이터는 많은 양의 데이터를 포함하고 있기 때문에, 이를 간단하게 설명해주고 데이터의 집합의 특성을 알아낼 지표가 필요하다. 이 때 가장 기초적으로 사용되는 대표값 들을 사용해 설명하는 것이 기술통계이다. 경향성 데이터의 경향성을 살펴보기 위한 가장 기초적인 값들은 다음과 같다. 이들은 기초적인 대표값들인 동시에, 데이터를 특정 방법으로 요약하는 값들이기도 하다. 이러한 값들은 또한 측정지표(metric)이라고도 불린다. 평균 (mean, average) 모든 값의 합을 갯수로 나눈 값. 통상적으로 평균은 그리스어 $\mu$로 표기된다. 각 데이터를 $x$, ..

데이터사이언스 - (1) 데이터의 요소

데이터사이언스 데이터란 현실에서 수집 가능한 모든 정보의 집합을 말한다. 기존에는 데이터(data)와 정보(information)를 나누어, 가공되기 전의 상태를 데이터, 가공후의 상태를 정보라고 지칭하였다. 하지만, 빅데이터의 영향으로 데이터 자체가 의미를 갖는 상황이 생겨났기 때문에, 최근에는 두가지를 분류해서 정의하지 않는다. 데이터의 종류 데이터분석에서 활용되는 데이터는 둘로 나뉜다. 정형데이터와 정형화되지 않은 비정형데이터이다. 정형데이터 정형화된 데이터란 우리가 흔히 알고있는 테이블로 표현 가능한 데이터이다. 대개는 한번의 정제 과정을 거쳐 테이블(데이터베이스)로 적제 되거나, 개발자나 DBA가 정의한 스키마로 저장될 수 있도록 유도된다. 비정형데이터 비정형데이터란 정형화되지 않은 모든 데이터..

강화학습 - (18) 시간차 학습

강화학습 시간차 (Temporal Difference) 강화학습의 가장 특수한점, 강화학습만의 유일한 강점을 꼽으라고 한다면, 그것은 시간차학습(Temporal Difference Learning)일 것이다. 강화학습은 어떠한 상태의 가치를 판단함으로서 예측한다. $v_{\pi}(s) \dot{=} \mathbb{E}_{\pi}[G_t|S_t=s]$ 지금까지의 학습 기법은 에피소드가 끝나야만 학습이 가능했다. 하지만 배운 기법을 조금 수정하면 에피소드 중간에도 학습이 가능하게 해준다. 몬테카를로 학습기법에 점진적인 갱신을 반영하면 다음과 같다: $V(S_t) \leftarrow V(S_t) + \alpha [G_t - V(S_t)]$ 결과값 $G_t$는 에피소드가 끝나야만 얻어지는 반환갑이다. 따라서 이..

강화학습 - (17) 중요도 샘플링

강화학습 중요도 샘플링 (Importance Sampling) 중요도 샘플링이랑 다른 분포에서 샘플링된 값을 가지고, 구하고자 하는 분포(타깃 분포)에서의 기댓값을 유추하는 방법이다. 랜덤 변수 $x$가 분포 $b$에서 샘플링 되었다고 가정해보자: Sample: $x ~ b$ Estimate: $\mathbb{E}_{\pi}[X]$ 여기서 우리는 $X$의 기댓값을 구하고 싶지만, 분포 $b$에서의 샘플 평균을 그대로 사용할 수는 없다. 왜냐하면 이 방식으로 구하게 되면 타깃 분포에서의 기댓값이 아닌 분포 $b$에서의 기댓값이 구해지기 때문이다. 먼저 기댓값의 정의를 다시한번 살펴보자: (0)$\mathbb{E}_{\pi}[X] \dot{=} \sum_{x \in X} x\pi(x)$ (1)$= x \pi..

강화학습 - (16) 오프 폴리시

강화학습 탐색과 활용 에이전트는 종종 탐색을 하기 위해서 최적이 아닌 행동들을 취해야 한다. 하지만 이는 꼭 필요하지 않은 작업일 수도 있다. 입실론 소프트 정책은 모든 행동에 대해 특정 확률을 부여함으로서, 행동하는 것과 학습하는것 모두 차선의(sub-optimal) 선택을 취했다. 오프 폴리시 (On-Policy) 지금까지 다루었던 모든 문제는 On-Policy 학습 방법에 해당했다. On-Policy란 정책을 평가하고 향상하여 행동을 선택하는 학습 방법이다. 따라서 행동하는 정책과 학습하는 정책이 같다 온 폴리시 (Off-Policy) 반대로 Off-Policy란 행동하는 정책과 학습하는 정책이 다른 학습 방법이다. 이를 다른말로 표현하면, 행동을 선택하는 정책과 학습하는 정책이 각각 다르다는 의미..

강화학습 - (15) 입실론 그리디

강화학습 탐색적 시작의 문제점 지난 포스팅에서 이야기한 탐색적 시작은 현실의 문제에서 많은 문제점들이 있다. 만약 상태 공간이 아주 큰 문제라면, 처음만 랜덤이 이 기법은 모든 상태에 대한 충분한 탐색이 불가능해진다. 첫 상태에 대한 샘플링이 비효율적이고 쉽지 않기 떄문에, 이는 비효율적인 기법이 된다. 입실론 소프트 정책 (Epsilon Soft Policy) 입실론 소프트란 모든 행동에 대해서 최소한 입실론 나누기 행동의 숫자의 확률을 부여하는 것을 말한다. 다른말로 해 각각의 행동은 적어도 $\frac{\epsilon}{|A|}$의 확률을 가지게 되는 것이다. 입실론 소프트 정책을 활용하면 우리는 더이상 탐색적 시작점을 선택하지 않아도 된다. 입실론 소프트 정책을 통해서 여러 상태들에 대해서 연속적..

강화학습 - (14) 몬테카를로

강화학습 몬테카를로 (Monte-Carlo) 몬테카를로는 강화학습 뿐만 아니라, 더 넓은 의미에서 랜덤 샘플링 기반의 반복적인 샘플링 기법으로 알려져 있다. 강화학습에서는 경험, 즉 상태, 행동, 보상의 시퀀스에 기반해서 가치를 추정하는데 사용된다. 경험에서 학습하는 것은 생각보다 많이 효율적이다. 이는 환경에 대한 사전 지식이 없이도 가치함수를 추정할 수 있게 해주기 때문이다. 다이나믹 프로그래밍의 한계 다이나믹 프로그래밍을 강화학습에 사용하려면, 에이전트는 환경의 상태들간의 상태전환확률(transition probability)를 알고있어야 한다. 하지만 특정 문제들에서 우리는 이 상태정환확률을 할수 없다. 예제) 우리가 미래의 날씨에 대해서 예측한다고 해보자. 날씨를 변화시키는 데에는 너무나도 많은..

강화학습 - (13) 가치 반복

강화학습 일반화된 정책 반복 (Generalized Policy Iteration) 정책 반복 알고리즘은 에피소드를 처음부터 끝까지 진행해 보고, 정책을 평가한 뒤 정책을 향상 시키는 방법이었다. 하지만 정책 반복은 이것보다 더 유연한 알고리즘이다. 정책 반복에서 끝까지 다 수했했던 것을 조금 줄여서, 아래의 그림과 같이 개선을 시킬 수도 있다. 각각의 반복은 가치를 끝까지 향상시키지는 않고 조금씩 향상시킨다. 또한 각각의 개선은 정책을 최대의 탐욕으로 만들지 않고 조금씩 탐욕적으로 만든다. 이는 최종적으로는 최적 가치와 최적 정책에 도달하게 된다. 이 이론을 일반화된 정책 반복 (Generalized Policy Iteration)이라고 한다. 가치 반복 (Value Iteration) 가치 반복은 일..

728x90
반응형