import findspark
findspark.init()

from pyspark.sql import SparkSession


spark = SparkSession.builder.appName("Basic").getOrCreate()


spark


path = "/home/user/data/"


df = spark.read.json(path + 'people.json')


df.show()

+---+----+
|age|name|
+---+----+
| 29|Choi|
| 25|Park|
| 22| Kim|
+---+----+


df.printSchema()

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)


df.columns

['age', 'name']


df.describe() # make another DF storing some inportant info (count, std, mean, etc)

DataFrame[summary: string, age: string, name: string]


df.describe().show()

+-------+------------------+----+
|summary|               age|name|
+-------+------------------+----+
|  count|                 3|   3|
|   mean|25.333333333333332|null|
| stddev| 3.511884584284246|null|
|    min|                22|Choi|
|    max|                29|Park|
+-------+------------------+----+


from pyspark.sql.types import StructField, StringType, IntegerType, StructType


data_schema = [StructField("age", IntegerType(), True), StructField("name", StringType(), True)]


final_struc = StructType(fields=data_schema)


df = spark.read.json(path + "people.json", schema=final_struc)


df.printSchema()

root
 |-- age: integer (nullable = true)
 |-- name: string (nullable = true)


df['age']

Column<'age'>


type(df['age'])

pyspark.sql.column.Column


df.select('age')

DataFrame[age: int]


type(df.select('age'))

pyspark.sql.dataframe.DataFrame


df.select('age').show()

+---+
|age|
+---+
| 29|
| 25|
| 22|
+---+


df.head(2)

[Row(age=29, name='Choi'), Row(age=25, name='Park')]


df.select(['age','name']).show()

+---+----+
|age|name|
+---+----+
| 29|Choi|
| 25|Park|
| 22| Kim|
+---+----+


df.withColumn('newage', df['age']).show() # withColumn(newcol, algorithm) : make a new col

+---+----+------+
|age|name|newage|
+---+----+------+
| 29|Choi|    29|
| 25|Park|    25|
| 22| Kim|    22|
+---+----+------+


df.show() # RDD처럼 DF도 immutable하다. withColumn이 기존의 DF를 바꾸는것이 아님.

+---+----+
|age|name|
+---+----+
| 29|Choi|
| 25|Park|
| 22| Kim|
+---+----+


 df.withColumnRenamed('age', 'newage').show() # withColumnRenamed(from, to) : rename col name

+------+----+
|newage|name|
+------+----+
|    29|Choi|
|    25|Park|
|    22| Kim|
+------+----+


df.withColumn('after_5_years', df['age'] + 5).show()

+---+----+-------------+
|age|name|after_5_years|
+---+----+-------------+
| 29|Choi|           34|
| 25|Park|           30|
| 22| Kim|           27|
+---+----+-------------+


df.withColumn('age in 2000s', df['age'] - 21).show()

+---+----+------------+
|age|name|age in 2000s|
+---+----+------------+
| 29|Choi|           8|
| 25|Park|           4|
| 22| Kim|           1|
+---+----+------------+


df.createOrReplaceTempView("people") # createOrReplaceTempView("table name") : register DF as Table


new_df = spark.sql("SELECT * FROM people")


new_df # spark.sql create DF by using SQL from Table

DataFrame[age: int, name: string]


new_df.show()

+---+----+
|age|name|
+---+----+
| 29|Choi|
| 25|Park|
| 22| Kim|
+---+----+


spark.sql("SELECT * FROM people WHERE age>25").show()

+---+----+
|age|name|
+---+----+
| 29|Choi|
+---+----+


sc = spark.sparkContext


lines = sc.textFile(path + "people.txt") # lines is RDD


lines.top(3)

['Park,25', 'Kim,22', 'Choi,29']


lines.take(2)

['Choi,29', 'Park,25']


parts = lines.map(lambda l: l.split(","))


parts.top(3)

[['Park', '25'], ['Kim', '22'], ['Choi', '29']]


from pyspark.sql import Row


people = parts.map(lambda p: Row(name=p[0], age=int(p[1])))


people.top(3)

[Row(name='Park', age=25), Row(name='Kim', age=22), Row(name='Choi', age=29)]


schemaPeople = spark.createDataFrame(people)


schemaPeople.printSchema()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)


schemaPeople.show()

+----+---+
|name|age|
+----+---+
|Choi| 29|
|Park| 25|
| Kim| 22|
+----+---+


schemaPeople.createOrReplaceTempView("people")


early20 = spark.sql("SELECT * FROM people WHERE age<=23")


early20.show()

+----+---+
|name|age|
+----+---+
| Kim| 22|
+----+---+


lines = sc.textFile(path + "people.txt") # lines is RDD
parts = lines.map(lambda l: l.split(","))
people = parts.map(lambda p: (p[0], int(p[1].strip())))


people.top(3)

[('Park', 25), ('Kim', 22), ('Choi', 29)]


from pyspark.sql.types import StructField, StringType, IntegerType, StructType


schema = StructType([
    StructField('name', StringType(), True),
    StructField('age', IntegerType(), True)
])


schemaPeople = spark.createDataFrame(people, schema) # peopleRDD의 각 line에 StructType schema 적용


schemaPeople.show()

+----+---+
|name|age|
+----+---+
|Choi| 29|
|Park| 25|
| Kim| 22|
+----+---+

아파트 가격 추이 분석 서비스(4) (0)	2021.06.13
아파트 가격 추이 분석 서비스(3) (0)	2021.05.30
아파트 가격 추이 분석 서비스(2) (0)	2021.05.22
아파트 가격 추이 분석 서비스(1) (0)	2021.05.22
[YouTube]Apache Spark Tutorial Full Course - RDD Creation (4) (0)	2021.05.17

작심삼일

[YouTube]Apache Spark Tutorial Full Course - Spark SQL&basic (5)

Spark processing 추이

Spark SQL

Practice

DataFrame 생성(from json)¶

Make schema structure¶

Grabbing the data¶

Creating new colmns¶

SQL¶

RDD to DataFrame¶

'IT study > Big Data' 카테고리의 다른 글

+ Recent posts

티스토리툴바