728x90
반응형

group by 3

스파크 튜토리얼 - (6) 데이터프레임

DataFrame DataFrame은 테이블처럼 구조화된 데이터로, 스키마를 표현할 수 있는 RDD의 확장 구조체입니다. python의 pandas나 SQL을 써본사람이라면, 이해가 빠를것입니다. Row DataFrame의 행을 Row라고 합니다.. Row들이 곧 하나의 레코드가 되고, Row들이 RDD를 내장함으로서, 효과적으로 데이터를 접근할 수 있게 해줍니다. 데이터 지난번 포스팅에서 사용했던 json데이터를 사용하겠습니다. 다운로드 링크는 아래에 있습니다. DataFrame 생성 데이터프레임은 크게 두가지 방법으로 생성할 수 있습니다. 스파크 세션을 통해 직접 생성 SQL컨텍스트의 테이블을 통해 생성 두가지 방법 모두 스파크 내부에서의 동작은 크게 다르지 않습니다. 각각의 방법을 살펴보도록 하겠습..

MySQL - (4) 윈도우 함수

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN SQL 집계함수 SQL에서는 집계함수를 많이 사용합니다. GROUP BY와 함께 COUNT, SUM 등을 많이 사용하게 됩니다. 집계의 예제를 다시 살펴보겠습니다. 다음은 GROUP BY와 COUNT를 사용해, 나라별 인원 집계를 내려본 것입니다. SELECT Country, COUNT(*) FROM customers GROUP BY Country; 위 쿼리의 실행 결과 중 상위 5개는 다음과 같습니다. 만약 데이터에 숫자인 컬럼이 있었다면, SUM이나 AVG도 사용해 볼 수 있을 것입니다. 윈도우 함수 윈도우 함수는 이 GROUP BY와 비슷하지만, 집계가 없는..

서버 개발/MySQL 2019.08.10

MySQL - (2) 집계함수

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN 집계함수 모든 분석 언어들이 그렇듯, 기술통계적 집계 함수들이 존재합니다. 이번 포스팅에서는 MySQL에서 제공하는 기본 집계나 정렬 함수들을 알아보겠습니다. ORDER BY ORDER BY는 이름에서도 알 수 있듯이 정렬하는 함수 입니다. ORDER BY의 기본 문법은 다음과 같습니다. SELECT [컬럼명 ...] FROM 테이블명 ORDER BY 컴럼명 ASC|DESC; 테이블 전체의 레코드를 여러가지 방식으로 정렬해 보도록 하겠습니다. 다음은 id를 사용해 모든 레코드를 내림차순으로 정렬하는 쿼리 입니다. SELECT * FROM customers ORDE..

서버 개발/MySQL 2019.08.08
728x90
반응형