( 참고 : “FastCampus, 데이터 엔지니어링 올인원” )

[ Data Engineering ]

Data Workflow

1. 데이터 파이프라인

figure2

ex) Amazon EC2 서버에서 데이터를 가져오고, S3에 저장하고 Athena에 저장!


Directed Acyclic Graphs (DAG)

  • flow 구조

  • 하나의 job/event가 끝나면, 다음 job/event로 연결

    ( 혹은 fail 시, 다른 job/event 수행 )

figure2


2. ETL (Extract-Transform-Load)

Extract : 데이터를 추출하고

Transform : 데이터를 변형하고

Load : 데이터를 로드한다

  • 요즈음은 ELT로 하기도!

figure2


여러 소스에서 온 다양한 데이터들이 다양한 곳에 존재한다. AWS Glue는 이렇게 여러 소스의 데이터들을 관리한다.

그렇게 관리된 데이터들은 (비즈니스 분석에서 많이 사용되는) Amazon Redshift나, Amazon S3로 넘어간다.

figure2


3. AWS Glue

AWS Glue?

이전과 다르게 요즈음은 데이터의 형식/소스가 다양해졌다. AWS Glue는 이렇게 다양한 데이터를 통합(Glue)한다!


AWS Glue의 Crawler?

Crawler가 알아서 데이터의 형식을 파악하고 schema를 관맇나다!


4. 데이터 순환 구조

지속적인 모니터링

figure2