728x90
반응형

아카이브 32

2주차 - 논문의 요건과 작성 과정

좋은 논문의 요건 독창성 새로운 정보/사실이나 사실로 인정된 것이 잘못되었다는 입증이 있어야 한다. 새로운 사실을 발견하고 해결책을 모색하는 것 새로운 어떠한것이 드러나는 참신성이 있어야 한다. 기존의 이론을 새로운 방식으로 구축하는 것 기존의 이론을 새로운 분야에 적용하는 것 기존의 이론을 새로운 연구 결과로 강화하는 것 기존의 연구 결과와의 상이한 점을 관찰하고 이유를 설명하는 것 기존의 연구 결과로부터 다른 연구와의 연관성을 발견하는 것 정확성 논문의 내용은 독자에게 올바르고 정확하게 전달해야 한다. 부정확한 자료가 아니라, 수치 자료는 면밀하게 분석하고 평가해야 한다. 자료의 오류는 연구자의 책임이기 때문에 정확한 자료를 사용해야 한다. 객관성 제 3자의 입장에서 객관적으로 작성해야 한다. 철저하..

1주차 - 논문의 정의와 종류

논문의 정의 연구자가 학문 발전의 목적으로, 새로운 발견을 알리거나, 고유한 견해를 설득하기 위해 학문 공동체가 요구하는 형식에 맞춰 집필하는 학술적인 글 논문의 목적 학문적차원 - 새로운 지식을 생산 및 공유, 학문 공동체의 발전을 도모 개인적차원 - 연구자 자신의 경력에 기여 사회적차원 - 문명의 진보에 기여 논문의 성격 학문 발전에 기여하기 위한 글 연구자의 창의성이 드러나는 글 연구자 고유의 별견이나 견해를 입증하기 위한 정확성, 객관성, 논리성을 확보하는 글 학문 공동체의 정해진 형식성, 체계성을 준수하는 글 학문분야 및 사회 발전에 기여하는 글 - 유용성/윤리성 논문의 종류 기업이나 연구소의 논증적으로 서술한 보고서나 평론 학문분야는 인문학, 사회과학, 자연과학, 공학 논문으로 구분 방법론에 ..

강화학습 공부 - (4) Model Free Control

Model Free Control Model Free Control은 다음과 같은 문제들을 풀기 위함이다: 문제에서 MDP가 주어져 있지 않지만, 경험을 통해 간단하게 만들 수 있는 경우 MDP가 주어져 있지만, 환경이 너무 크기 때문에 샘플링을 통해 행동하는 경우 On-Policy vs Off-Policy On-Policy 행동하면서 학습하는 문제 정책 $\pi$를 통한 경험의 샘플링을 통해 정책 $\pi$ 학습시키는 것 , 즉 행동하는대로 학습하는 형태 또한 검증시에도 같은 정책을 사용한다. Off-Policy 다른 (에이전트의) 행동 패턴을 통해 학습하는 문제 다른 에이전트의 정책 $\mu$를 통핸 경험의 샘플링을 통해 정책 $\pi$를 학습시키는 것, 즉 다른 누군가의 행동을 보고 학습하는 형태 ..

데이터 중심 애플리케이션 - (1) 데이터 시스템

데이터 시스템 용어 정리 신뢰성 (Reliability) 하드웨어나 소프트웨어의 결함, 에러와 같은 역경에 직면해도 시스템이 올바르게 동작하는가 결함성 (fault-tolerant) 시스템에서 잘못될 수 있는 일인 결함을 예측하고 대처할 수 있는 능력 결함 (fault) 시스템의 사양에서 벗어난 요소 장애 (failure) 필요한 서비스를 제공 못하고, 시스템이 멈춘 상태 카오스 몽키 (Chaos-Monky) 넷플릭스의 테스트 방법의 일종으로, 시스템의 구성 중 하나의 혹은 여러 프로세스를 임의로 죽여 결함을 일으켜 테스트하는 방법 확장성 (Scalability) 데이터, 트래픽의 양, 복잡도 증가를 위해 시스템이 확장할 수 있는가 부하 매개변수 (load parameter) 시스템의 현재 부하를 기술하..

강화학습 공부 - (3) Model Free Prediction

Model Free Prediction 환경이 MDP로 표현될 수는 있지만, MDP가 주어지지 않은 문제를 풀고싶다. 이러한 상황에서 사용할 수 있는 기법들을 설명한다. 동적 계획법 (Dynamic Programming) 동적계획법은 문제를 작은 단위로 나누고, 반복을 통해 문제를 푸는 것이다. 이 방식은 상태의 수가 증가할 수록 계산 복잡도가 엄청나게 늘어난다. 또한, 동적 프로그래밍은 상태가 모두 알려진 MDP에 대해서만 풀 수 있다. 만약 MDP가 주어지지 않고, 모든 상태에 대해 알 수 없다면, 동적계획법을 사용할 수 없다. 따라서, 정책이 주어졌고, MDP를 알지 못할 때, 가치함수를 찾는 과정을 알아보고자 한다. 몬테카를로 학습 (Monte-Carlo Learning) 몬테카를로 학습은 직관적..

강화학습 공부 - (2) 동적계획법

동적 프로그래밍 (동적 계획법, Dynamic Programming) "동적" (Dynamic) 이라는 단어는 순차적이고, 일시적인 방면의 문제를 푸는것이라는 것을 의미한다. 이는 복잡한 문제를 푸는 방법론이다. 큰 문제를 서브 문제들로 분해한다. 그리고 그 서브 문제들을 다 풀어내면, 큰 문제를 풀 수 있다. 동적 프로그래밍으로 풀 수 있는 문제들은 두가지 특성을 가지고있다. 최적의 세부구조를 가지고있다. 최적의 세부 구조들을 풀어내면, 그로 인해 원래의 문제가 풀리는 구조이다. 최적의 해를 찾기 위해 세부 문제들로 분해해야 한다. 겹치는 세부 문제들이 존재한다. 세부 문제들이 반복되어 일어난다. 또한 그 세부 문제들을 캐시(저장)하고 재사용한다. 따라서 그 세부 문제들을 반복해서 풀어내면 효율적으로 ..

추천시스템 18 - 경사하강법

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems SVD의 문제점 SVD는 좋은 테크닉이지만 아래와 같은 문제가 있다: SVD를 계산하는것은 매우 느리다. SVD는 채워지지 않은 데이터에 대해 어떠한 조치를 취해주어야 한다. 따라서 이러한 문제들을 해결하기 위해 경사하강법을 적용해보고자 한다. 접근법 경사하강법을 적용하고자 하는 인사이트는, SVD를 사용해 추천을 계산할때의 에러를 직시하는것이다. 선형대수적으로는 SVD를 구한 다음, k만큼의 값을 자르는것이, ra..

5주차

주키퍼 주키퍼는 분산 코디네이션 시스템이다. 분산 환경에서 여러 노드 간에 조정자 역할을 한다. 만약 하나의 노드에 워크로드가 많이 갔다면, 로드밸런싱 해주는 기능도 포함되어 있다. 주키퍼 아키텍처 디렉토리 기반으로 데이터를 저장한다. Key-value방식으로 znode라는 저장 객체를 저장한다. 데이터를 파일시스템과 같이 계층화된 구조로 저장하기에 용이하다. Watch 기능 주키퍼 클라이언트가 특정 znode에 watch기능을 걸어놓을 수 있다. Watch기능을 걸어 놓는다면, 해당 노드의 변화를 콜백 형식으로 업데이트 받는다. 복제기능 주키퍼 서버들은 모두 데이터를 복제해서 가지고 있다. 주키퍼 서버들은 연결이 되면 리더를 선택하게 된다. 이 때 리더는 모든 서버들의 저장된 것을 복제한다. 또 리더가..

추천시스템 17 - 행렬 분해

추천시스템 본 포스팅은 Minnesota대학교의 Intro to Recommender Systems코세라 강좌를 정리한 내용입니다. https://www.coursera.org/learn/collaborative-filtering?specialization=recommender-systems 잠재 의미 분석 (Latent Semantic Analysis) 정보검색 분야에서도 비슷한 고민을 먼저 시작했다. 문서의 키워드벡터와 쿼리의 키워드벡터 들의 조합은 간단하지만 좋은 표현법은 아니다. - 의미를 내포하기가 힘들다 이것을 해결하기 위해 특이값분해 (Singular Value Decomposition, SVD)라는 테크닉을 사용한다. SVD는 행렬을 사용자-아이템 행렬에서 선호도 기반의 작은 행렬로 감소시..

강화학습 공부 - (1) 마르코프 결정 프로세스

서론 MDP란 강화학습의 환경을 공식적으로 설명하는 것이다. 모든 환경이 관찰 가능하다고 가정한다. 거의 모든 강화학습의 문제들이 MDP로 표현될 수 있다. 마르코프 구성요소 현재를 기준으로 미래는 과거와 무관하다 상태 S_t는 $P[S_{t+1} | S_t] = P[S_{t+1} | S1, … S_t]$ 상태 $S_{t+1}$은 오직 상태 S_t에 의해서만 결정된다. 이것이 상태 S_1에서 S_t까지 (히스토리)를 모두 반영한다고 가정한다. 따라서 현재의 상태가 다음(미래)상태를 결정하는데 충분하다고 본다. 상태 전환 확률은 마르코프 상태 s의 제일 높은 확률을 가진 다음 상태 s'를 결정하는 확률이다. $P_{ss'} = P[S_t+1 = s' | S_t = s]$ 상태 전환 행렬은 현재 상태에서 다..

728x90
반응형