Scala의 빌드 도구 SBT

​ Scala에는 SBT라는 빌드 도구가 있습니다. SBT는 의존성 관리에 Apache ivy를 사용합니다. 앞으로 계속 내용을 추가할 예정입니다. ​ SBT SBT로 생성한 프로젝트의 기본 디렉토리를 보면 build.sbt가... »

AWS 환경에서 Cloudera Manager 설치하기

​ 클라우데라 매니저는 하둡 에코시스템을 쉽게 설치하고 관리할 수 있도록 도와주는 도구입니다. 이를 이용하여 AWS EC2 인스턴스에 하둡 클러스터를 설치하고 실행시키는 방법에 대해 정리해보았습니다. 내 노트북에... »

Spark의 Random Sampling에 대하여

​ 데이터를 분석하다보면 임의의 샘플을 추출해야 하는 상황이 생깁니다. 그래서 이번에는 Spark에서 랜덤 샘플링을 하는 방법에 대해 정리해보았습니다. ​ Sample() Spark RDD API 에는 다양한 sampling... »

Spark의 Temporary View에 대하여

​ SQL의 View 처럼 Spark에서도 View를 지원합니다. 이 포스팅에서는 Spark 2.1.0 부터 생긴 Spark Global Temporary View와 기존의 TempView가 어떤 차이가 있는지 그리고 어떻게 사용해야하는지 알아보곘습니다.... »

넷플릭스 본사 방문 후기

​ 미국 여행하면서 다양한 경험을 했지만, 넷플릭스는 그 중 가장 기억에 남았던 장소다. 우연히 넷플릭스의 추천 팀 데이터 엔지니어로 근무하시는 선배님과 연락이 되었고, 덕분에 많은 이야기를... »

실리콘밸리 여행 후기

​ 실리콘밸리는 미국 캘리포니아 주 샌프란시스코 만 지역 남부에 위치한다. 우연히 좋은 기회를 얻게 되어 여러 회사에 들어가볼 수 있었다. 먼저 여행 계획 단계부터 대충 정리하자면,... »