반응형

Weekly Scrum Meeting

Contents

1) 추이

  • Spark를 사용해서 다양한 요인에 의한 집값 변화 추이 분석하기(세부 기능 회의 중)

2) 예측 : ML 모델링

  • 10년치 data에 대해 선형모델을 적용하면 대체로 집값이 오르는 것으로 예측 → 의미 X
  • 분석할 아파트 요인별로, 최근 2년간 월별 데이터를 통해 선형 예측값을 보여주기로 결정

Todos

  •  Hadoop Cluster 환경구축 및 HDFS에 data 저장
  •  Spark로 data분석집값 결정 요인별 집값에 얼마나 영향을 주었는지 분석하기 ex) 강원도 집값이 올랐다면 작은 평수에서 올랐는지 높은 평수에서 올랐는지 그래프 보여주기
  •  시각화 tool 정하기- spark와 연동되어야 함 - python lib고려(지도 시각화)

Done

  1. 부동산 뉴스 제목 크롤러 구현 완료
  2. ML 선형모델 프로토타입 구축 완료 (임의의 시를 기준으로 테스트 완료)
  3. 아파트 매매 실거래가 데이터 정제 완료

 

 

Hadoop Cluster 구축 완료(2.7.6 ver)

 

Spark Local로 pyspark분석 실험

- windows local에서 ubuntu로 데이터셋 옮기기 

cd /mnt # 마운트 폴더로 이동 -> c드라이브 접근
cp {windows에 file path} {ubuntu save path}

 

- 개별 csv file에 skip해야 할 row가 조금 있었는데 DataFrame으로 read.csv시 해당 부분을 skip하는데 문제가 생겼다.

Python Pandas의 dataframe처럼 skiprows를 할 수 있을줄 알았는데 찾아보니 csv를 RDD로 생성하여 

mapping하는식으로 skiprows를 해야한다고 한다... 

상관은 없지만 다양한 분석을 할때마다 작업하기 보다는 파일 자체를 다시 고치는게 나을 것 같다.

 

다행히 지역별, 연도별로 폴더화가 잘 되어 있어서 간단하게 파일을 수정했다.

import pandas as pd

provinces = ['강원도','경기도','경상남도','경상북도','광주광역시','대구광역시','대전광역시','부산광역시','서울특별시','세종특별자치시','울산광역시','인천광역시','전라남도','전라북도','제주특별자치도','충청남도','충청북도']
years = list(range(2010, 2022))

for p in provinces:
    basic_folder = f'/home/user/dataset/{p}/{p}_'

    for y in years:
        df = pd.read_csv(basic_folder + str(y) + '.csv', encoding='CP949', skiprows=2)
        df.to_csv(basic_folder + str(y) + '.csv', index=False)

 

추가로,

sparkSQL을 사용해 보고,

Spark ML로 간단한 선형회귀를 테스트해보았다.

 

 

반응형

+ Recent posts