Spark의 Random Sampling에 대하여

​ 데이터를 분석하다보면 임의의 샘플을 추출해야 하는 상황이 생깁니다. 그래서 이번에는 Spark에서 랜덤 샘플링을 하는 방법에 대해 정리해보았습니다. ​ Sample() Spark RDD API 에는 다양한 sampling... »

Spark의 Temporary View에 대하여

​ SQL의 View 처럼 Spark에서도 View를 지원합니다. 이 포스팅에서는 Spark 2.1.0 부터 생긴 Spark Global Temporary View와 기존의 TempView가 어떤 차이가 있는지 그리고 어떻게 사용해야하는지 알아보곘습니다.... »

GFS, HDFS 그리고 MapReduce

​ ​ 데이터가 급속히 늘어나면서 기존의 방법으로 처리가 힘들어지자, 빅데이터를 위한 대용량 분산 파일 시스템이 나타나기 시작했습니다. 여기에서는 GFS, HDFS 그리고 Map Reduce 개념에 대해 정리해보려고... »

Pandas DataFrame을 병렬처리 하는 방법

​ ​ Scikit-learn의 모델들은 cython과 joblib으로 최적화 및 자동 병렬처리 되도록 설계되어 있지만, Pandas는 여전히 내부적으로 병렬처리 기능을 지원하지 않습니다. 하지만, 큰 규모의 DataFrame을 돌리다보면 전처리에도... »