반응형

[Team 1] Weekly Scrum_3

Contents

  1. 환경 구축- Hadoop Cluster 환경구축 - Spark Cluster 환경구축
  2. 데이터 테스트- local Spark에서 실데이터를 사용한 분석 테스트 - local Spark에서 ML 선형모델 테스트

Todos

  •  Spark로 data분석집값 결정 요인별 집값에 얼마나 영향을 주었는지 분석하기 ex) 강원도 집값이 올랐다면 작은 평수에서 올랐는지 높은 평수에서 올랐는지 그래프 보여주기
  •  시각화- Zeppelin Cluster 환경구축 - Zeppelin 사용법 익히기

Done

  • Hadoop Cluster 환경구축 및 데이터 Upload
  • Spark Cluster 환경구축 및 local Spark환경에서 data 분석

 

[Team 1] Weekly Scrum 4

Contents

  1. 환경 구축- Zeppelin Cluster 환경구축
  2. 데이터 테스트집값 추이에 대해 Zeppelin으로 시각화 테스트

Todos

  •  Spark로 data분석- 추이분석 - 머신러닝 분석
  •  시각화- 추이분석 시각화

Done

  • Zeppelin yarn mode 환경구축
  • 집값 추이에 대해 Zeppelin으로 시각화 테스트

 

Spark yarn mode 구축(Spark 2.2.2 ver)

- Pi example

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --num-executors 3 /usr/local/spark/examples/jars/spark-examples_2.11-2.2.2.jar 10

 

 

Zeppelin 설치(0.8.2 ver)

참고 사이트(zeppelin 부분만) : https://glow153.tistory.com/16

- yarn-mode 추가 설정 : https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html

   - 참고 : 초기 설정으로는 Interpreter setting에 접근 권한이 없었음.

    → <Zeppelin_HOME>/conf/shiro.ini 에서 권한 설정.

- 설정한 포트로 Zeppelin UI 접속

- HDFS에서 csv 파일 불러오기 테스트

 

Hadoop clustering → Spark Processing(yarn mode) → Zeppelin 시각화 까지 진행하기 위한 환경 구축 완료.

 

 

Zeppelin test

지역별 아파트 매매 가격 평균 변화 추이

 

Resource Manager UI

 

 

프로젝트 진행 중

  • zeppelin에서는 내부의 다이나믹 폼, 차트를 다른 웹사이트에 쉽게 적재할 수 있으며 동적으로 link 된다.
    • 따라서 웹사이트에서 zeppelin의 paragraph들을 이용해서 쉽게 포스트 할 수 있도록 zeppelin에서 구현하면 추가적인 작업을 많이 줄여줄 수 있을 것 같다.
  • 여러 가지 기준(지역, 아파트별, 면적, 층수 등)에 따라 아파트 가격 변화 추이를 보여주는 것을 목표로 하기 때문에 입력을 받는 paragraph와 각 기준별 chart를 보여주기 위한 paragraph를 분리하고 각각을 웹사이트에 적절하게 연결만 해주면 될 것 같다.
    •  zeppelin에는 Zeppelin Context로 변수 z를 사용하여 다양한 기능을 사용할 수 있다.
      • z.run()이라는 함수로 특정 paragraph에서 또 다른 paragraph를 실행시킬 수 있다.
      • ex - 입력 paragraph에서 값을 받고 해당 값이 필요한 chart를 모두 run시킨다.
    • zeppelin의 pragraph끼리는 변수의 전달이 안된다. (sparkSession은 된다.)
      • z.put & z.get을 사용해서 paragraph간 변수 전달을 한다.
      • DataFrame은 paragraph간 공유가 된다.(하지만 paragraph interpreter는 같아야함)
  • 기능 구현 상황
    • 지역별 아파트 매매가 변화 추이 검색, 그래프 보여주기
    • 해당 지역 이하의 아파트 매매가 변화 추이 검색, 그래프 보여주기
    • 아파트 매매가 변화 추이 검색시, sparkML로 다음 연도 매매가 회귀 예측 보여주기

 

Troubles

  • pyspark - python 버전 에러가 뜨며 install numpy가 잘 안되었다. numpy는 spark.ml을 사용하기 위해 꼭 필요하다. (Ubuntu도 16.x 버전으로 오래전 버전이라 영향이 있는 것 같다.) Ubuntu16.x는 python3.5x로 실행되는 많은 프로그램이 있기 때문에 python 버전을 아예 바꾸는 것은 리스크가 있다고 한다. 
    • python3.7 받아서 spark-env.sh의 driven_path만 python3.7 경로로 바꿔주고 numpy는 python3.7 -m pip install numpy로 사용하는 버전에 모듈 다운로드. (당연히 job이 실행되는 모든 DataNode에 해줘야 한다) 

 

반응형

+ Recent posts