본문 바로가기

분류 전체보기136

[DE-Zoomcamp] 3. Data Warehouse: BigQuery로 OLAP 분석하기 (Partitioning/Clustering/Best Practice/BQML) 이 글은 Data Engineering Zoomcamp의 Module 3: Data Warehouse and BigQuery 를 바탕으로데이터 웨어하우스/BigQuery의 기본 개념부터 비용 모델(스캔 바이트)과 성능 최적화(파티셔닝·클러스터링), 그리고 이와 관련된 테이블 설계 및 실습 예시를 정리한 글입니다. 목차OLTP vs OLAP: 데이터 웨어하우스가 필요한 이유Data Warehouse와 BigQuery 포지셔닝BigQuery 비용 모델(온디맨드 vs 플랫레이트)Partitioning(파티셔닝)Clustering(클러스터링) + 자동 리클러스터링Partitioning vs Clustering 선택 가이드BigQuery Best Practices (비용/성능)BigQuery Internals .. 2026. 2. 9.
[DE-Zoomcamp] 2-a. Kestra vs Airflow - 워크플로 오케스트레이션 도구 비교 이 글은 Data Engineering Zoomcamp Module 2 실습에서 사용한 Kestra와 데이터 엔지니어링 현업에서 가장 많이 쓰이는 Airflow를학습·실습·운영 관점에서 비교 정리한 글입니다. 목차워크플로 오케스트레이션 도구가 필요한 이유Kestra와 Airflow 개요핵심 개념 비교워크플로 정의 방식 비교실행 및 운영 관점 비교어떤 상황에서 어떤 도구를 선택할까정리1. 워크플로 오케스트레이션 도구가 필요한 이유데이터 파이프라인이 복잡해질수록 다음과 같은 요구사항이 발생합니다.작업 간 의존성 관리정기 실행 및 실패 시 재시도실행 이력·로그·상태 추적운영 환경에서의 확장성이를 해결하기 위해 워크플로 오케스트레이션 도구를 사용합니다.대표적인 선택지가 Airflow, 그리고 최근 주목받는 Ke.. 2026. 1. 31.
[DE-Zoomcamp] 2. Kestra로 워크플로 오케스트레이션 실습하기 이 글은 Data Engineering Zoomcamp의 Module 2: Workflow Orchestration 를 바탕으로워크플로 오케스트레이션 개념과 Kestra 실습 내용을 정리한 글입니다.목차Workflow Orchestration 개요ETL vs ELT 개념 비교Kestra 소개Kestra 로컬 환경 구성Workflow 실행ETL 파이프라인 구성스케줄링과 Backfill 참고 자료 / 출처1. Workflow Orchestration 개요데이터 엔지니어링에서 워크플로 오케스트레이션은여러 데이터 작업을 순서·의존성·시간 기준으로 관리하는 역할을 합니다.일반적인 데이터 파이프라인은 다음과 같은 단계로 구성됩니다.데이터 수집 (Extract)데이터 변환 (Transform)데이터 적재 (Load).. 2026. 1. 31.
[DE-Zoomcamp] 1-2. Terraform으로 GCP 인프라(GCS + BigQuery) 실습하기 이 글은 Data Engineering Zoomcamp의 Module 1: Containerization and Infrastructure as Code를 기반으로, Terraform을 사용하여 GCS Bucket + BigQuery Dataset을 생성/삭제하는 IaC(Infra as Code) 워크플로우를 소개합니다. 목차왜 Terraform인가사전 준비: GCP 인증/권한Terraform 프로젝트 구조예시 코드: GCS Bucket + BigQuery DatasetTerraform 워크플로: init → plan → apply → destroy참고자료/출처1. 왜 Terraform인가 데이터 엔지니어링을 시작하면 가장 먼저 필요한 게 "클라우드 리소스 준비"입니다. GCS 버킷(데이터 레이크)과.. 2026. 1. 25.
[DE-Zoomcamp] 1-1. Docker + PostgreSQL로 로컬 데이터 엔지니어링 실습 환경 만들기 이 글은 Data Engineering Zoomcamp의 Module 1: Containerization and Infrastructure as Code를 기반으로, Docker로 PostgreSQL을 띄우고 NYC TLC 택시 데이터를 청크 단위로 적재하는 로컬 데이터 엔지니어링 실습 환경을 소개합니다. ① 재현 가능한 실행 환경(Docker)② DB 컨테이너 운영(네트워크/볼륨)③ 대용량 적재(Chunk + SQLAlchemy)순서로 진행됩니다.목차왜 Docker인가Docker 기본: 컨테이너는 기본적으로 무상태(stateless)Volume로 데이터/파일을 컨테이너 밖에 고정하기uv로 Python 의존성 관리하기(재현성 강화)파이프라인 Dockerizing (pip 버전 / uv 버전)Postgre.. 2026. 1. 25.
[MCP] MCP(Model Context Protocol) 학습 및 실습 프로젝트 최근 Hugging Face의 MCP(Model Context Protocol) 관련 블로그와 공식 문서를 읽고, 추가로 Hugging Face MCP Course, Agent Course를 수강하면서 MCP의 구조와 활용 가능성을 집중적으로 학습했습니다. 이번 글에서는 학습한 MCP의 개념과 프로젝트에 대해 공유하고자 합니다. MCP 개념MCP 구조 MCP는 AI 어시스턴트·IDE·에이전트가 다양한 도구와 리소스를 표준화된 방식으로 연결할 수 있도록 설계된 프로토콜입니다. 이를 통해 개발 환경과 AI가 보다 매끄럽게 상호작용할 수 있고, 검색·분석·실행과 같은 기능을 통합된 워크플로우에서 활용할 수 있습니다. MCP 장점M×N 통합 문제 해결: 다양한 AI 시스템과 도구, 데이터 소스를 각기 연결하는.. 2025. 9. 28.