shuffle1 [DE-Zoomcamp] 6-2. Apache Spark 구조와 동작 원리 이 글은 Data Engineering Zoomcamp의 Module 6: Batch Processing를 기반으로, Apache Spark 의 아키텍처, 실행 구조, 그리고 내부 처리 메커니즘을 정리한 글입니다. 목차Apache Spark란 무엇인가Spark를 사용하는 이유Spark의 기본 구조 (Driver / Master / Executor)Spark의 데이터 처리 방식 (Partition 기반 처리)Spark에서의 Transformation과 ActionSpark SQL과 DataFrameSpark가 실무에서 중요한 이유 Spark에서 GroupBy가 동작하는 방식 Shuffle이 중요한 이유 Spark에서 Join이 동작하는 방식 GroupBy와 Join의 공통 구조 RDD와 DataF.. 2026. 3. 1. 이전 1 다음