본문 바로가기

분류 전체보기140

[DE-Zoomcamp] 6-2. Apache Spark 구조와 동작 원리 이 글은 Data Engineering Zoomcamp의 Module 6: Batch Processing를 기반으로, Apache Spark 의 아키텍처, 실행 구조, 그리고 내부 처리 메커니즘을 정리한 글입니다. 목차Apache Spark란 무엇인가Spark를 사용하는 이유Spark의 기본 구조 (Driver / Master / Executor)Spark의 데이터 처리 방식 (Partition 기반 처리)Spark에서의 Transformation과 ActionSpark SQL과 DataFrameSpark가 실무에서 중요한 이유 Spark에서 GroupBy가 동작하는 방식 Shuffle이 중요한 이유 Spark에서 Join이 동작하는 방식 GroupBy와 Join의 공통 구조 RDD와 DataF.. 2026. 3. 1.
[DE-Zoomcamp] 6-1. Batch Processing 소개 이 글은 Data Engineering Zoomcamp의 Module 6: Batch Processing를 기반으로, 데이터 처리 방식 중 가장 널리 사용되는 Batch Processing(배치 처리)의 개념과 구조를 정리한 글입니다. 목차Batch Processing이란Batch와 Streaming의 차이왜 Batch Processing이 필요한가Batch 파이프라인의 기본 구조Batch 처리에 사용되는 기술Batch Processing의 장단점실무에서의 Batch 설계 방식참고자료/실습1. Batch Processing이란 Batch Processing은 일정 시간 동안 수집된 데이터를 모아 한 번에 처리하는 방식입니다.데이터가 생성되는 즉시 처리하는 것이 아니라,시간 단위(예: 1시간, 1일, 1.. 2026. 3. 1.
[DE-Zoomcamp] 5. Data Platforms : Bruin 기반 NYC Taxi ELT 파이프라인 구축 이 글은 Data Engineering Zoomcamp의 Module 5: Data Platforms 를 바탕으로Bruin CLI를 활용해 NYC Taxi 데이터를 ingestion → staging → reporting 단계로 구성한End-to-End ELT 파이프라인을 정리한 글입니다. 목차 Data Platform이란 무엇인가Bruin의 핵심 개념NYC Taxi ELT Pipeline 구조Materialization 전략 이해Data Quality & Lineage참고자료/출처 1. Data Platform이란 무엇인가데이터 플랫폼은 단순히 데이터를 저장하는 시스템이 아닌 데이터를 수집하고, 변환하고, 검증하고, 의존성을 관리하는 전체 워크플로를 운영하는 구조를 의미합니다. Modern Dat.. 2026. 2. 22.
[DE-Zoomcamp] 4. Analytics Engineering (dbt): Analytics Engineering 개념과 설계 흐름 이 글은 Data Engineering Zoomcamp의 Module 4: Analytics Engineering (dbt) 를 바탕으로Analytics Engineering의 개념부터 데이터 모델링의 의미, dbt를 활용한 모델 정의 및 테스트 구조, 그리고 Modern Data Stack 환경에서의 역할과 설계 흐름을 정리한 글입니다. 목차Analytics Engineering이란 무엇인가Analytics Engineering 출현 배경과 필요성Analytics Engineer가 하는 일Data Modeling의 의미dbt가 Analytics Engineering에서 중요한 이유dbt의 주요 기능Modern Data Stack과 Analytics Engineering필요한 기술 요소Analytic.. 2026. 2. 16.
[DE-Zoomcamp] 3. Data Warehouse: BigQuery로 OLAP 분석하기 (Partitioning/Clustering/Best Practice/BQML) 이 글은 Data Engineering Zoomcamp의 Module 3: Data Warehouse and BigQuery 를 바탕으로데이터 웨어하우스/BigQuery의 기본 개념부터 비용 모델(스캔 바이트)과 성능 최적화(파티셔닝·클러스터링), 그리고 이와 관련된 테이블 설계 및 실습 예시를 정리한 글입니다. 목차OLTP vs OLAP: 데이터 웨어하우스가 필요한 이유Data Warehouse와 BigQuery 포지셔닝BigQuery 비용 모델(온디맨드 vs 플랫레이트)Partitioning(파티셔닝)Clustering(클러스터링) + 자동 리클러스터링Partitioning vs Clustering 선택 가이드BigQuery Best Practices (비용/성능)BigQuery Internals .. 2026. 2. 9.
[DE-Zoomcamp] 2-2. Kestra vs Airflow - 워크플로 오케스트레이션 도구 비교 이 글은 Data Engineering Zoomcamp Module 2 실습에서 사용한 Kestra와 데이터 엔지니어링 현업에서 가장 많이 쓰이는 Airflow를학습·실습·운영 관점에서 비교 정리한 글입니다. 목차워크플로 오케스트레이션 도구가 필요한 이유Kestra와 Airflow 개요핵심 개념 비교워크플로 정의 방식 비교실행 및 운영 관점 비교어떤 상황에서 어떤 도구를 선택할까정리1. 워크플로 오케스트레이션 도구가 필요한 이유데이터 파이프라인이 복잡해질수록 다음과 같은 요구사항이 발생합니다.작업 간 의존성 관리정기 실행 및 실패 시 재시도실행 이력·로그·상태 추적운영 환경에서의 확장성이를 해결하기 위해 워크플로 오케스트레이션 도구를 사용합니다.대표적인 선택지가 Airflow, 그리고 최근 주목받는 Ke.. 2026. 1. 31.