반응형
결과물
https://github.com/worldbrighteststar/analysis-apartments-market-trends
worldbrighteststar/analysis-apartments-market-trends
(Hadoop-Spark-Zeppelin 분산 처리 환경) 아파트 가격 추이 분석. Contribute to worldbrighteststar/analysis-apartments-market-trends development by creating an account on GitHub.
github.com
최종적으로 시/도 범위부터 행정동까지 다양한 지역 범위에 따라 검색하여
실시간으로 spark processing ~ zeppelin show로 그래프를 생성하여 웹사이트에 제공하였다.
외에도 최근 거래가 범위를 지정하여 해당하는 아파트의 정보들을 볼 수 있는 기능,
간단한 회귀 예측으로 이후 아파트 가격(예측값)을 보여주었고
다음 뉴스에서 지역별 부동산 뉴스를 크롤링하여 최신 부동산 정보를 확인할 수 있도록 해주었다.
기여한 부분
- 데이터 수집, 전처리
- Hadoop 분산 처리 환경 구축 및 HDFS에 데이터 저장
- spark를 통한 데이터 Extraction
- zeppelin 시각화
- sparkML 적용
빅데이터 팀프로젝트를 마치면서,
관심이 많은 분야이기 때문에 최대한 많은 부분을 맡아서 해보았다.
사실 이번 프로젝트 보다 훨씬 큰 데이터를 다루어 보고 싶었지만,
시간적으로나 클러스터 구축을 위해 제공 받은 환경으로나 쉽지 않았을 것 같다.
그래도 빅데이터 분산 처리에 사용되는 여러가지 framework와 기능들을 사용해 볼 수 있는
재밌는 프로젝트였다.
반응형
'IT study > Big Data' 카테고리의 다른 글
| 아파트 가격 추이 분석 서비스(3) (0) | 2021.05.30 |
|---|---|
| [YouTube]Apache Spark Tutorial Full Course - Spark SQL&basic (5) (0) | 2021.05.28 |
| 아파트 가격 추이 분석 서비스(2) (0) | 2021.05.22 |
| 아파트 가격 추이 분석 서비스(1) (0) | 2021.05.22 |
| [YouTube]Apache Spark Tutorial Full Course - RDD Creation (4) (0) | 2021.05.17 |