전체 정렬 전체 정렬이란 입력 데이터를 먼저 개발자가 샘플링 해서 데이터의 분포도를 조사한 뒤, 미리 파티션의 갯수와 파티션에 저장할 데이터의 범위를 조사한 분포에 맞게 정해주는 정렬 방법입니다. 이때 분포와 파티션 정보가 잘 들어맞는다면 분산환경의 장점을 살려 좋은 효율을 내겠지만, 계산법이 틀렸다면, 특정 파티션에 데이터가 집중되면서 그 리듀스 태스크는 부하가 걸려 오래걸리게 됩니다. 전체정렬은 결국 다른 방식으로 부분정렬을 하고, 그 부분정렬을 모두 합치면 전체정렬이 완성됩니다. 정렬의 관점에서만 보면 전체정렬이 더 낫다고 볼 수 있으나, 부분정렬은 검색이 용이하다는 장점이 있기 때문에 각각의 용도가 다르다고 보면 됩니다. 전체정렬 구현 전체 정렬은 시퀀스파일이 이미 생성되었다는 것을 전제로 진행됩..