일기장

[DE] 데이터엔지니어 시리즈 준비

graph-dev 2025. 11. 27. 11:13
728x90

 

 

앞으로 어떤 글을 작성할지 고민하다가, 데이터엔지니어 시리즈에 대해 정리해서 실력을 쌓아보려고 합니다.

 

여러 종류가 있지만, 일단 JD를 살펴보면서 사람들의 관심을 가질 만한 도구로 시작해보려고 합니다. 요새 너무 급변하는 사회라, 관련 기술에 적절하게 대응해야 관심을 끌고, 그것을 위해 더 속도를 내야하는 상황입니다.

 

 

 

 

데이터 엔지니어 도구: Batch 작업용 도구부터 시작

보통 데이터엔지니어를 한다고 하면, 실시간(Realtime)이나 배치(Batch)를 골라서 성장합니다. 마치 전직하는 게임 캐릭터같죠.

 

만화로 그려보았습니다

 

일단 Realtime streaming은 장기적으로 보기로 했고, 지금 관심있는 부분은 Batch를 위한 도구들입니다.

 

앞으로 이 Batch와 관련하여 공부한 내용을 블로그로 정리할 예정입니다.

 

작성할 순서는 다음과 같습니다.

  1. Airflow
  2. Spark
  3. PostgreSQL
  4. fastAPI
  5. Hadoop ecosystem

 

이 다섯 가지를 돌아가면서 정리해보겠습니다. 강의 내용을 정리해보거나 공식 문서를 기반으로 간단한 토이 프로젝트를 수행하면서 만들어볼 예정입니다. 궁극적으로는 이 네가지 도구(Hadoop 제외)를 기반으로 하나의 구조도를 만들고, 하나의 파이프라인을 만들어 배포까지 진행해보는 것입니다. 

 

Airflow

에어플로우는 워크플로우를 DAG(Directed Acyclic Graph) 형태로 정의하고 예약하며 모니터링할 수 있게 해주는 플랫폼입니다.

관련해서 커뮤니티가 매우 발전해있고, 한국 사용자 모임이 잘 되어 있으니, 궁금한 것은 많이 물어볼 수 있어 좋습니다.

 

* 글로벌 홈페이지

https://airflow.apache.org

 

Home

Platform created by the community to programmatically author, schedule and monitor workflows.

airflow.apache.org

 

* 한국 사용자 포럼 https://www.airflow-kr.org

 

 

 

Spark

 

Spark는 대규모 데이터 인메모리 방식으로 빠르게 처리할 수 있게 설계된 분산 컴퓨팅 시스템입니다. 빅데이터 다루는 도구이고, PySpark로 정리해보려고 합니다. Python이 주력 언어가 되니까, 이렇게 접근하는게 가장 좋겠다고 생각했습니다. 참고로, Spark 한국 사용자 모임은 Databricks 모임으로 통합된 느낌입니다. 데이터브릭스와 함께 가져가봐야겠네요.

 

* Spark 한국 사용자 모임 https://www.facebook.com/groups/sparkkoreauser/?locale=ko_KR

 

 

PostgreSQL

 

Postgresql은 신뢰성, 기능 확장성, 표준 준수를 잘 해놓은 오픈 소스 관계형 데이터베이스 관리 시스템(RDBMS)입니다. 즉, 대표적인 오픈소스 데이터베이스입니다. 정리해두어 절때 나쁠 것이 없고, 기업 쿼리 테스트에도 활용할 수 있어 열심히 정리해두면 분명히 도움이 될 것이라 생각합니다. 이 쿼리 테스트는 데이터 분석가 기준으로 많이 보는 모양이네요.

 

https://www.postgresql.org

 

PostgreSQL

The world's most advanced open source database.

www.postgresql.org

 

* 한국 사용자 모임 https://www.facebook.com/groups/postgres.kr/?locale=ko_KR

 

 

매년 아래처럼 pgday를 열기도 합니다.

https://pgday.flask.moe

 

pgday.Seoul 2025 - PostgreSQL 한국 사용자 모임

PostgreSQL 한국 사용자 모임 PostgreSQL을 사랑하는 개발자, 운영자들이 모여 지식과 경험을 공유하는 커뮤니티입니다 10 번째 행사 8 세션 ∞ 열정

pgday.flask.moe

 

 

fastAPI

fastAPI는 파이썬 타입 힌트에 기반하며 고성능을 제공하는 API를 구축하기 위한 현대적인 웹 프레임워크입니다. 이 fastAPI는 데이터엔지니어 분과 논의해보니 규모가 작은 기업은 대부분 백엔드 엔지니어, 개발자가 데이터 엔지니어 역할을 병행하는 경우가 많기 때문에 다룰 수 있어야 한다는 의견을 받았습니다.

 

주로 백엔드 개발자가 사용하는데, 그럼에도 python을 활용하고 사용법도 어렵지 않습니다. Django보다 속도도 빠르니, 정말 빠르게 익혀보려고 합니다.

https://fastapi.tiangolo.com/ko/

 

FastAPI

FastAPI framework, high performance, easy to learn, fast to code, ready for production

fastapi.tiangolo.com

 

 

Hadoop Ecosystem

 

하둡은 대규모 데이터 세트 분산하여 저장하고 처리할 수 있게 해주는 오픈 소스 소프트웨어 프레임워크 및 관련 프로젝트들의 집합입니다. 역사가 깊은 빅데이터 분산 처리 플랫폼입니다. Spark로 많이 대체하고 있지만, 일부 기업은 여전히 JD에 언급하고 있어서, 개념은 확실히 알아두어야할 것 같습니다. 애초에 하둡 생태계 안에 Spark가 있었으니까요. 그래서 데이터브릭스가 하둡, 스파크 키워드로 검색할 때 자주 보이나 싶습니다. 

 

문제는 하둡은 너무 범위가 넓고, 내부적인 도구도 여러개 입니다. 그래서 개념만 익혀보고, 필요하다면 자주 사용하는 일부 도구만 익힐 예정입니다.

 

https://hadoop.apache.org

 

Apache Hadoop

<!--- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or a

hadoop.apache.org

 

https://www.databricks.com/glossary/hadoop-ecosystem

 

What is a Hadoop Ecosystem?

Apache Hadoop ecosystem refers to the various components of the Hadoop software library; it includes open source projects and a complete range of tools.

www.databricks.com

 

그 이후에 내년 상반기 중에는 DBT, OpenSearch, Elastic Search를 함께 다뤄보고, 이 Search 시리즈는 기존 DB 포지션을 대체할 수 있을지 테스트 해보려고 합니다.

 

배포를 생각하면, 나중에 ArgoCD 혹은 컨테이너(Docker), Kubernetes도 함께 고려해봐야겠지만, 기본기에 충실하게 공부하고 나서 응용할 때 곁가지를 쳐보는 게 효과가 좋았습니다.

 

지금은 하나씩 뿌수는 단계라기보다는 돌아가면서 맛을 보고, 익숙해지는 시간으로 가져가보겠습니다. 기술 스택을 돌려가면서 쌓아보죠!

 

2026년 힘내보겠습니다!