728x90
반응형

MySQL 13

스파크 튜토리얼 - (7) 스파크 SQL

Spark SQL 스파크는 여러 방면에서 SQL을 사용할 수 있도록 지원합니다. 이전 포스팅들에서는 csv나 json파일을 통해 DataFrame을 만드는 방법을 잠깐 설명했습니다. 이 DataFrame 기능이 곧 Spark SQL에 포함되는 기능입니다. Spark SQL과 DataFrame SQLContext는 spark session을 내장하고 있습니다. 아래와 같이 입력하게 되면 sqlCtx가 내장하고 있는 SparkSession을 가지고 올 수 있습니다. In [ ]: sqlCtx.sparkSession 이 내용이 중요한 것은, SparkSession이 파일 로딩 및 JDBC나 여러 Connector를 사용한 SQL서버와의 연결이 가능하기 떄문입니다. 따라서 JDBC나 ODBC를 지원하는 모든 S..

MySQL - (7) JOIN

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN JOIN Join이란 두개의 테이블을 합쳐 어떠한 결과물을 내는 작업입니다. 이때, 대개의 경우 컬럼명이 같은 컬럼을 기준으로 Join을 수행합니다. SQL에서 지원하는 Join의 종류는 다음과 같습니다. NATURAL JOIN INNER JOIN LEFT/RIGHT JOIN SELF JOIN 이번 포스팅에서는 NATURAL JOIN과 FULL JOIN, 그리고 INNER JOIN에 대해서 알아보겠습니다. 데이터 준비 JOIN을 하려면 (SELF JOIN을 제외하면) 테이블이 두개 이상 필요합니다. 먼저 Customer테이블 이외에 Orders테이블을 생성해주겠습..

서버 개발/MySQL 2019.08.10

MySQL - (6) 조건분기

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN 조건분기 모든 프로그래밍 언어에는 조건분기가 존재합니다. SQL에서 조건분기는 여러가지 방법이 있습니다. WHERE문 사용 UNION 사용 CASE 사용 WHERE문은 손쉽게 사용할 수 있다는 장점이 있지만, 구문이 매우 길어질 수 있습니다. UNION은 기본적으로 여러개의 SELECT문을 사용한다는 전제가 깔려있기 때문에 효율적이지 않습니다. 따라서, 이번 포스팅에서는 CASE문을 사용한 조건분기를 알아보도록 하겠습니다. CASE CASE식의 기본 문법은 다음과 같습니다. CASE WHEN 조건 THEN 식 WHEN 조건 THEN 식 ... ELSE 식 END ..

서버 개발/MySQL 2019.08.10

MySQL - (5) 데이터 갱신

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN 데이터 갱신 소프트웨어 개발을 하다보면 CRUD라는 말을 종종 듣게 됩니다. 이는 Create, Read, Update, Delete가 됩니다. SQL에서는 이가 곧 Insert, Select, Update, Delete가 됩니다. 이 중 Select를 제외하면 모두 데이터를 새로 주입하거나, 즉 갱신하려는 테이블 자체에 영향을 주는 트랜잭션 입니다. INSERT INSERT문의 기본적인 문법은 다음과 같습니다. INSERT INTO 테이블명 (컬럼명1, 컬럼명2, ...) VALUES (값1, 값2, ...) 참고로 위에서 컬럼명은 테이블이 정의된 컬럼 순서와 ..

서버 개발/MySQL 2019.08.10

MySQL - (4) 윈도우 함수

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN SQL 집계함수 SQL에서는 집계함수를 많이 사용합니다. GROUP BY와 함께 COUNT, SUM 등을 많이 사용하게 됩니다. 집계의 예제를 다시 살펴보겠습니다. 다음은 GROUP BY와 COUNT를 사용해, 나라별 인원 집계를 내려본 것입니다. SELECT Country, COUNT(*) FROM customers GROUP BY Country; 위 쿼리의 실행 결과 중 상위 5개는 다음과 같습니다. 만약 데이터에 숫자인 컬럼이 있었다면, SUM이나 AVG도 사용해 볼 수 있을 것입니다. 윈도우 함수 윈도우 함수는 이 GROUP BY와 비슷하지만, 집계가 없는..

서버 개발/MySQL 2019.08.10

MySQL - (3) VIEW

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN VIEW SQL에서 VIEW란 SELECT문을 내장하는 가상 테이블을 만드는 것입니다. 실제 데이터를 저장하고 있는 것이 아니라, SELECT문을 저장하는 구조 입니다. VIEW를 만드는 기본 문법은 다음과 같습니다. CREATE VIEW 뷰이름 AS SELECT문 예제 지난번에 사용했던 데이터를 사용해 View를 만들어보도록 하겠습니다. 아래의 쿼리는 Customer데이터에서 이름과 나라를 골라 View를 만드는 예제입니다. CREATE VIEW NameAndCountry(cname, country) AS (SELECT CustomerName, country F..

서버 개발/MySQL 2019.08.09

MySQL - (2) 집계함수

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN 집계함수 모든 분석 언어들이 그렇듯, 기술통계적 집계 함수들이 존재합니다. 이번 포스팅에서는 MySQL에서 제공하는 기본 집계나 정렬 함수들을 알아보겠습니다. ORDER BY ORDER BY는 이름에서도 알 수 있듯이 정렬하는 함수 입니다. ORDER BY의 기본 문법은 다음과 같습니다. SELECT [컬럼명 ...] FROM 테이블명 ORDER BY 컴럼명 ASC|DESC; 테이블 전체의 레코드를 여러가지 방식으로 정렬해 보도록 하겠습니다. 다음은 id를 사용해 모든 레코드를 내림차순으로 정렬하는 쿼리 입니다. SELECT * FROM customers ORDE..

서버 개발/MySQL 2019.08.08

MySQL - (1) SELECT

MySQL 포스팅 (1) SELECT (2) 집계함수 (3) VIEW (4) 윈도우 함수 (5) 데이터 갱신 (6) 조건 분기 (7) JOIN 환경 제가 사용할 환경은 다음과 같습니다. MySQL Ubuntu 5.7.27 MySQL Workbench 데이터 Select문을 사용해보기 전에 데이터를 준비하겠습니다. 다음 테이블의 데이터는 w3school에서 가져왔습니다. 링크는 아래에 있습니다. https://www.w3schools.com/sql/sql_select.asp 실습을 해보기 위해 위의 링크의 데이터를 조금 변경 했습니다. (인코딩 문제 해결) 아래는 상위 5개의 샘플 데이터 입니다. CustomerID CustomerName ContactName Address City PostalCode C..

서버 개발/MySQL 2019.08.08

하둡 2.0 튜토리얼 - (11) 스쿱 데이터 임포트

데이터 저는 지난번 hive 포스팅에서 설정해 두었던 로컬 기기의 MySQL서버를 사용하겠습니다. 그리고 데이터는 하둡 1.0에서 사용했던 carriers.csv파일을 사용합니다. 이 데이터에 관련된 정보는 아래의 포스팅에서 찾아보실 수 있습니다. https://jyoondev.tistory.com/57 carrier.csv파일을 조금 다른식으로 고쳤습니다. 아래 파이썬 스크립트를 이용하면, ","를 모두 지우게 되고, 컬럼 사이를 \t를 사용해 나누게 됩니다. with open("carriers.csv", 'r') as in_file, \ open("carriers_new.csv", 'w') as out_file: for line in in_file.readlines()[1:]: line = line...

하둡 2.0 튜토리얼 - (10) 아파치 스쿱 설치

아파치 스쿱 하이브가 하둡에 있는 파일을 SQL을 사용해 접근하게 해주는 인터페이스 역할을 했다면, 스쿱은 기존에 있던 RDB에서 하둡으로 파일을 끌어오거나 내보내주는 역할을 하는 시스템입니다. 비지니스 로직 측면에서 보면, 하둡과 같은 시스템이 기존에 있던 RDB들에 있는 데이터를 고려를 안할 수가 없기 때문에 RDB에서 데이터를 가져오거나, 하둡에 있는 데이터들과 조인을 해 분석을 하는 측면에서 꼭 필요한 시스템입니다. 스쿱 설치 먼저 스쿱을 설치하기 위해 다음 링크에서 다운로드를 받겠습니다. http://mirror.apache-kr.org/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz > wget http://mirror.apache-kr.org/sqoop..

728x90
반응형