아파트 가격 추이 분석 서비스(3)

2021. 5. 30. 01:12

[Team 1] Weekly Scrum_3

환경 구축- Hadoop Cluster 환경구축 - Spark Cluster 환경구축
데이터 테스트- local Spark에서 실데이터를 사용한 분석 테스트 - local Spark에서 ML 선형모델 테스트

Todos

Spark로 data분석집값 결정 요인별 집값에 얼마나 영향을 주었는지 분석하기 ex) 강원도 집값이 올랐다면 작은 평수에서 올랐는지 높은 평수에서 올랐는지 그래프 보여주기
시각화- Zeppelin Cluster 환경구축 - Zeppelin 사용법 익히기

Done

Hadoop Cluster 환경구축 및 데이터 Upload
Spark Cluster 환경구축 및 local Spark환경에서 data 분석

[Team 1] Weekly Scrum 4

환경 구축- Zeppelin Cluster 환경구축
데이터 테스트집값 추이에 대해 Zeppelin으로 시각화 테스트

Todos

Spark로 data분석- 추이분석 - 머신러닝 분석
시각화- 추이분석 시각화

Done

Zeppelin yarn mode 환경구축
집값 추이에 대해 Zeppelin으로 시각화 테스트

Spark yarn mode 구축(Spark 2.2.2 ver)

- Pi example

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --num-executors 3 /usr/local/spark/examples/jars/spark-examples_2.11-2.2.2.jar 10

Zeppelin 설치(0.8.2 ver)

- 참고 사이트(zeppelin 부분만) : https://glow153.tistory.com/16

- yarn-mode 추가 설정 : https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html

- 참고 : 초기 설정으로는 Interpreter setting에 접근 권한이 없었음.

→ <Zeppelin_HOME>/conf/shiro.ini 에서 권한 설정.

- 설정한 포트로 Zeppelin UI 접속

- HDFS에서 csv 파일 불러오기 테스트

Hadoop clustering → Spark Processing(yarn mode) → Zeppelin 시각화 까지 진행하기 위한 환경 구축 완료.

Zeppelin test

Resource Manager UI

프로젝트 진행 중

zeppelin에서는 내부의 다이나믹 폼, 차트를 다른 웹사이트에 쉽게 적재할 수 있으며 동적으로 link 된다.
- 따라서 웹사이트에서 zeppelin의 paragraph들을 이용해서 쉽게 포스트 할 수 있도록 zeppelin에서 구현하면 추가적인 작업을 많이 줄여줄 수 있을 것 같다.
여러 가지 기준(지역, 아파트별, 면적, 층수 등)에 따라 아파트 가격 변화 추이를 보여주는 것을 목표로 하기 때문에 입력을 받는 paragraph와 각 기준별 chart를 보여주기 위한 paragraph를 분리하고 각각을 웹사이트에 적절하게 연결만 해주면 될 것 같다.
- zeppelin에는 Zeppelin Context로 변수 z를 사용하여 다양한 기능을 사용할 수 있다.
  - z.run()이라는 함수로 특정 paragraph에서 또 다른 paragraph를 실행시킬 수 있다.
  - ex - 입력 paragraph에서 값을 받고 해당 값이 필요한 chart를 모두 run시킨다.
- zeppelin의 pragraph끼리는 변수의 전달이 안된다. (sparkSession은 된다.)
  - z.put & z.get을 사용해서 paragraph간 변수 전달을 한다.
  - DataFrame은 paragraph간 공유가 된다.(하지만 paragraph interpreter는 같아야함)
기능 구현 상황
- 지역별 아파트 매매가 변화 추이 검색, 그래프 보여주기
- 해당 지역 이하의 아파트 매매가 변화 추이 검색, 그래프 보여주기
- 아파트 매매가 변화 추이 검색시, sparkML로 다음 연도 매매가 회귀 예측 보여주기

Troubles

pyspark - python 버전 에러가 뜨며 install numpy가 잘 안되었다. numpy는 spark.ml을 사용하기 위해 꼭 필요하다. (Ubuntu도 16.x 버전으로 오래전 버전이라 영향이 있는 것 같다.) Ubuntu16.x는 python3.5x로 실행되는 많은 프로그램이 있기 때문에 python 버전을 아예 바꾸는 것은 리스크가 있다고 한다.
- python3.7 받아서 spark-env.sh의 driven_path만 python3.7 경로로 바꿔주고 numpy는 python3.7 -m pip install numpy로 사용하는 버전에 모듈 다운로드. (당연히 job이 실행되는 모든 DataNode에 해줘야 한다)

'IT study > Big Data' 카테고리의 다른 글

아파트 가격 추이 분석 서비스(4) (0)	2021.06.13
[YouTube]Apache Spark Tutorial Full Course - Spark SQL&basic (5) (0)	2021.05.28
아파트 가격 추이 분석 서비스(2) (0)	2021.05.22
아파트 가격 추이 분석 서비스(1) (0)	2021.05.22
[YouTube]Apache Spark Tutorial Full Course - RDD Creation (4) (0)	2021.05.17

작심삼일

아파트 가격 추이 분석 서비스(3)

[Team 1] Weekly Scrum_3

Contents

Todos

[Team 1] Weekly Scrum 4

Contents

Todos

Spark yarn mode 구축(Spark 2.2.2 ver)

Zeppelin 설치(0.8.2 ver)

Zeppelin test

Resource Manager UI

프로젝트 진행 중

Troubles

'IT study > Big Data' 카테고리의 다른 글

+ Recent posts

티스토리툴바