Spark의 Shuffling 이해하기

​ 효율적인 Spark Application을 개발하기 위해 Shuffling 은 상당히 중요한 개념입니다. 이에 대해 간단히 정리해보았습니다. ​ Spark Architecture: Shuffle Shuffle을 설명하기 전에 한 가지 예시를 들어보겠습니다.... »

Spark groupByKey vs reduceByKey

​ Spark Application 성능 개선을 위한 groupByKey, reduceBykey에 대해 알아보겠습니다. ​ groupByKey vs reduceBykey # reduceByKey spark.textFile("hdfs://...") .flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a,... »

Bagging과 Boosting 그리고 Stacking

​ 오늘은 머신러닝 성능을 최대로 끌어올릴 수 있는 앙상블 기법에 대해 정리해보았습니다. ​ Ensemble, Hybrid Method 앙상블 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념입니다.... »