31 Posts Tagged: “DataEngineering”
AWS EMR step을 이용한 Spark Batch 작업
July 02, 2017
1 min read
AWS EMR은 특정 작업을 등록할 수 있는 step 이라는 기능을 제공합니다. 예를 들어 매일 새벽에 클러스터에서 돌려야하는 Batch…
AWS 환경에서 Cloudera Manager 설치하기
June 23, 2017
1 min read
클라우데라 매니저는 하둡 에코시스템을 쉽게 설치하고 관리할 수 있도록 도와주는 도구입니다. 이를 이용하여 AWS EC…
Spark의 Random Sampling에 대하여
June 20, 2017
1 min read
데이터를 분석하다보면 임의의 샘플을 추출해야 하는 상황이 생깁니다. 그래서 이번에는 Spark…
Spark의 Temporary View에 대하여
June 16, 2017
2 min read
SQL의 View 처럼 Spark에서도 View를 지원합니다. 이 포스팅에서는 Spark 2.1.…
Jupyter에서 Scala로 Spark 사용하는 방법
March 22, 2017
2 min read
이 글은 평소에 Jupyter Notebook 에 익숙해져있는 분들께 유용할 듯 합니다. Zeppelin Notebook…
빅데이터 처리에 Scala가 필요한 이유
March 17, 2017
4 min read
StackOverFlow나 Quora를 보면 Scala has taken over the Big Data world…