제플린 노트북 자동 실행 스크립트 만들기
September 13, 2017
1 min read
제플린 노트북을 사용하다보면 가끔 제플린 어플리케이션을 재시작해야 하는 경우가 있습니다. 이 때, view 또는 udf…
AWS EMR에서 S3 사용 시 주의사항
September 09, 2017
3 min read
AWS EMR에서 Spark을 사용하는 경우, S…
Spark의 Shuffling 이해하기
August 25, 2017
2 min read
효율적인 Spark Application을 개발하기 위해 Shuffling…
Spark groupByKey vs reduceByKey
August 22, 2017
1 min read
Spark Application 성능 개선을 위한 에 대해 알아보겠습니다. groupByKey vs reduceBykey…
Hive Metastore 구축 관련 문제와 해결과정
August 11, 2017
2 min read
Hive Metastore를 구축하면서 겪은 이슈와 해결과정을 기록해두려고 합니다. 사용 환경은 Spark 2.1.1, Hive 2.1.…
Bagging과 Boosting 그리고 Stacking
July 19, 2017
2 min read
오늘은 머신러닝 성능을 최대로 끌어올릴 수 있는 앙상블 기법에 대해 정리해보았습니다. Ensemble, Hybrid Method…