devmoa

AQE: Coalescing Post Shuffle Partitions

카카오·2022년 1월 18일·00
SparkAQEPartitionCoalescing Post Shuffle Partitions데이터 분석최적화

AI 요약

Beta

이 글은 카카오 데이터PE셀의 Logan님이 작성한 Spark 최적화에 관한 기술 블로그입니다. 이전 글에서 Spark Partition의 개념과 최적화 방법을 다룬 데 이어, 이번 글에서는 동적 최적화 프레임워크인 Adaptive Query Execution(AQE)와 그 기능 중 하나인 Coalescing Post Shuffle Partitions(Shuffle 후 파티션 수를 줄이는 기능)에 대해 설명합니다.

Spark Partition은 RDDs나 Dataset를 구성하는 최소 단위로, 분산 처리되며 Task와 Core에 1:1로 대응됩니다. Partition의 수와 크기는 Spark 성능에 큰 영향을 미치며, 적절한 설정이 중요합니다.

0부터 도입된 AQE는 쿼리 실행 중에 동적으로 최적화를 수행하며, 특히 Coalescing Post Shuffle Partitions 기능은 Shuffle 작업 후 파티션 수를 줄여 성능을 개선하는 데 기여합니다. 데 기여합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다