본문 바로가기

분류 전체보기143

[ECL] AI 시대의 데이터 엔지니어링: ETL에서 ECL로 요약ECL = Extract · Contextualize · LinkETL을 대체하는 개념이 아니라 ETL을 확장하는 관점기존 Transform 단계 안에 있던 두 가지 문제를 분리데이터 의미 정의데이터 엔티티 연결데이터 엔지니어의 역할 변화: 파이프라인 코드 작성 → 데이터 의미 구조 설계※ 데이터 이동 중심 → 데이터 의미 중심 1. ETL로 이해하던 데이터 엔지니어링 ETL을 배운 사람에게 데이터 엔지니어링은 비교적 명확한 구조로 이해된다.소스 시스템에서 데이터를 추출정제와 조인을 통해 데이터를 가공분석에 적합한 저장소에 적재위와 같은 ETL 프레임은 오랫동안 효과적으로 작동했다.데이터 소스는 서로 다른 시스템에 존재했고, 데이터 포맷도 제각각이었으며, 누군가는 이를 분석 가능한 형태로 변환해야 했.. 2026. 3. 7.
[DE-Zoomcamp] 7-2. Kafka → Flink → PostgreSQL Streaming Pipeline 실습 이 글은 Data Engineering Zoomcamp의 Module 7: Streaming 를 바탕으로Kafka, Flink, PostgreSQL을 이용한 실시간 데이터 파이프라인 구축 과정을 정리한 글입니다. 목차 실습 목표실습 환경 구성Kafka Producer 구현Kafka Consumer 구현Kafka 데이터를 PostgreSQL에 저장Flink Streaming Job 실행Flink Job 실행 및 확인Window Aggregation 실습Late Event 처리 실험실습 정리참고 자료 / 출처 1. 실습 목표 목표: Streaming 데이터 파이프라인 구축 구성할 데이터 흐름 Producer (Python)↓Kafka (Redpanda)↓Apache Flink↓PostgreSQL 실습에서는.. 2026. 3. 7.
[DE-Zoomcamp] 7-1. Streaming Data Processing과 Kafka·Flink 개념 이해하기 이 글은 Data Engineering Zoomcamp의 Module 7: Streaming 를 바탕으로Streaming 데이터 처리의 개념과 Kafka, Flink 기반 데이터 파이프라인 구조를 정리한 글입니다.목차Streaming Data Processing이란 무엇인가Streaming 아키텍처의 기본 구조Kafka (Message Broker)의 역할Kafka를 대신하는 RedpandaStream Processing Framework: Apache FlinkFlink의 핵심 개념Streaming vs Batch Processing실제 데이터 엔지니어링 아키텍처정리참고 자료 / 출처1. Streaming Data Processing이란 무엇인가 데이터 엔지니어링에서 데이터 처리는 크게 두 가지 방식.. 2026. 3. 7.
[DE-Zoomcamp] 6-2. Apache Spark 구조와 동작 원리 이 글은 Data Engineering Zoomcamp의 Module 6: Batch Processing를 기반으로, Apache Spark 의 아키텍처, 실행 구조, 그리고 내부 처리 메커니즘을 정리한 글입니다. 목차Apache Spark란 무엇인가Spark를 사용하는 이유Spark의 기본 구조 (Driver / Master / Executor)Spark의 데이터 처리 방식 (Partition 기반 처리)Spark에서의 Transformation과 ActionSpark SQL과 DataFrameSpark가 실무에서 중요한 이유 Spark에서 GroupBy가 동작하는 방식 Shuffle이 중요한 이유 Spark에서 Join이 동작하는 방식 GroupBy와 Join의 공통 구조 RDD와 DataF.. 2026. 3. 1.
[DE-Zoomcamp] 6-1. Batch Processing 소개 이 글은 Data Engineering Zoomcamp의 Module 6: Batch Processing를 기반으로, 데이터 처리 방식 중 가장 널리 사용되는 Batch Processing(배치 처리)의 개념과 구조를 정리한 글입니다. 목차Batch Processing이란Batch와 Streaming의 차이왜 Batch Processing이 필요한가Batch 파이프라인의 기본 구조Batch 처리에 사용되는 기술Batch Processing의 장단점실무에서의 Batch 설계 방식참고자료/실습1. Batch Processing이란 Batch Processing은 일정 시간 동안 수집된 데이터를 모아 한 번에 처리하는 방식입니다.데이터가 생성되는 즉시 처리하는 것이 아니라,시간 단위(예: 1시간, 1일, 1.. 2026. 3. 1.
[DE-Zoomcamp] 5. Data Platforms : Bruin 기반 NYC Taxi ELT 파이프라인 구축 이 글은 Data Engineering Zoomcamp의 Module 5: Data Platforms 를 바탕으로Bruin CLI를 활용해 NYC Taxi 데이터를 ingestion → staging → reporting 단계로 구성한End-to-End ELT 파이프라인을 정리한 글입니다. 목차 Data Platform이란 무엇인가Bruin의 핵심 개념NYC Taxi ELT Pipeline 구조Materialization 전략 이해Data Quality & Lineage참고자료/출처 1. Data Platform이란 무엇인가데이터 플랫폼은 단순히 데이터를 저장하는 시스템이 아닌 데이터를 수집하고, 변환하고, 검증하고, 의존성을 관리하는 전체 워크플로를 운영하는 구조를 의미합니다. Modern Dat.. 2026. 2. 22.