Spark의 Random Sampling에 대하여

​ 데이터를 분석하다보면 임의의 샘플을 추출해야 하는 상황이 생깁니다. 그래서 이번에는 Spark에서 랜덤 샘플링을 하는 방법에 대해 정리해보았습니다. ​ Sample() Spark RDD API 에는 다양한 sampling... »

Spark의 Temporary View에 대하여

​ SQL의 View 처럼 Spark에서도 View를 지원합니다. 이 포스팅에서는 Spark 2.1.0 부터 생긴 Spark Global Temporary View와 기존의 TempView가 어떤 차이가 있는지 그리고 어떻게 사용해야하는지 알아보곘습니다.... »

넷플릭스 본사 방문 후기

​ 미국 여행하면서 다양한 경험을 했지만, 넷플릭스는 그 중 가장 기억에 남았던 장소다. 우연히 넷플릭스의 추천 팀 데이터 엔지니어로 근무하시는 선배님과 연락이 되었고, 덕분에 많은 이야기를... »

실리콘밸리 여행 후기

​ 실리콘밸리는 미국 캘리포니아 주 샌프란시스코 만 지역 남부에 위치한다. 우연히 좋은 기회를 얻게 되어 여러 회사에 들어가볼 수 있었다. 먼저 여행 계획 단계부터 대충 정리하자면,... »

Spring JPA, MyBatis

​ 최근 스프링 부트를 공부하면서 이것저것 정리하는 중 입니다. ​ JPA, Hibernate 스프링 JPA와 MyBatis 모두 Persistance API 입니다. JPA는 기존의 EJB와 다른 POJO 기반의 ORM... »