[Tech Blog] Apache Spark 단독으로 사용하기

서론.

안녕하세요, 저는 슬기로운 문화생활 SMS 데이터 엔지니어링 부서의 팀원 Yoda.jedi 입니다.

“Hadoop Eco System 에 국한되지 않는 단독 Apache Spark Clustering” 이라는 주제의 글 입니다. 저희 슬기로운 문화생활 (슬.문.생) 팀은 Hadoop eco System 에 HDFS와 같은 시스템을 Cloud의 S3와 같은 서비스로 채택해 사용하기로 하였으며, 이에 Spark 독자적으로 Clustering을 진행하였으며, 이에 대한 여정을 많은 분들과 공유하고 싶어, 포스팅을 작성하게 되었습니다.

본론.

저희 슬.문.생 서비스를 지탱하는 데이터는 Spark를 사용하여 처리하고 있습니다. 하지만, Hadoop eco System 에 포함되어있는 다양한 프레임워크(HDFS, Yarn …) 과 같은 스택들은 불필요하다 생각하여, 독자적인 Apache Spark Cluster를 구축하기로 결정하였습니다.

Spark Cluster가 될 서버 환경은 다음과 같습니다.

EC2

t3.medium 4대