( 참고 : “FastCampus, 데이터 엔지니어링 올인원” )

[ Data Engineering ]

Pyspark (2)

1. Pyspark를 통한 데이터 분석 1

1) 3개의 dataframe을 join

figure2


2) SQL문을 통해 분석 진행

figure2


2. Pyspark를 통한 데이터 분석 2

1) track popularity에 따른 count 확인하기

figure2


2) bar plot 버튼 클릭을 통해 시각적으로 그 분포를 확인할 수 있다.

figure2


3) audio feature 확인

  • 아래와 같이 ${변수명=xx}을 통해, 원하는 값을 그때 그때 바꿔서 입력할 수 있다.

figure2


3. Visualization in Spark

Settings 클릭

figure2


그 밖에도, 다른 언어의 다른 패키지를 사용해서도 시각화 할 수 있다.