( 참고 : “FastCampus, 데이터 엔지니어링 올인원” )
[ Data Engineering ]
Pyspark (2)
1. Pyspark를 통한 데이터 분석 1
1) 3개의 dataframe을 join
2) SQL문을 통해 분석 진행
2. Pyspark를 통한 데이터 분석 2
1) track popularity에 따른 count 확인하기
2) bar plot 버튼 클릭을 통해 시각적으로 그 분포를 확인할 수 있다.
3) audio feature 확인
- 아래와 같이
${변수명=xx}
을 통해, 원하는 값을 그때 그때 바꿔서 입력할 수 있다.
3. Visualization in Spark
Settings 클릭
그 밖에도, 다른 언어의 다른 패키지를 사용해서도 시각화 할 수 있다.