Spark의 Shuffling 이해하기

​ 효율적인 Spark Application을 개발하기 위해 Shuffling 은 상당히 중요한 개념입니다. 이에 대해 간단히 정리해보았습니다. ​ Spark Architecture: Shuffle Shuffle을 설명하기 전에 한 가지 예시를 들어보겠습니다.... »

Spark groupByKey vs reduceByKey

​ Spark Application 성능 개선을 위한 groupByKey, reduceBykey에 대해 알아보겠습니다. ​ groupByKey vs reduceBykey # reduceByKey spark.textFile("hdfs://...") .flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a,... »