Bagging과 Boosting 그리고 Stacking

​ 오늘은 머신러닝 성능을 최대로 끌어올릴 수 있는 앙상블 기법에 대해 정리해보았습니다. ​ Ensemble, Hybrid Method 앙상블 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념입니다.... »

Scala의 빌드 도구 SBT

​ Scala에는 SBT라는 빌드 도구가 있습니다. SBT는 의존성 관리에 Apache ivy를 사용합니다. 앞으로 계속 내용을 추가할 예정입니다. ​ SBT SBT로 생성한 프로젝트의 기본 디렉토리를 보면 build.sbt가... »

AWS 환경에서 Cloudera Manager 설치하기

​ 클라우데라 매니저는 하둡 에코시스템을 쉽게 설치하고 관리할 수 있도록 도와주는 도구입니다. 이를 이용하여 AWS EC2 인스턴스에 하둡 클러스터를 설치하고 실행시키는 방법에 대해 정리해보았습니다. 내 노트북에... »

Spark의 Random Sampling에 대하여

​ 데이터를 분석하다보면 임의의 샘플을 추출해야 하는 상황이 생깁니다. 그래서 이번에는 Spark에서 랜덤 샘플링을 하는 방법에 대해 정리해보았습니다. ​ Sample() Spark RDD API 에는 다양한 sampling... »