Spark 2편 – Caching 및 Persist

베스핀글로벌·2025년 3월 25일·00

SparkCachingPersistRDDDataframespill over

AI 요약

Beta

이 글은 Apache Spark에서 데이터 처리 성능을 향상시키기 위한 Caching 및 Persist 기능과 관련 문제점 및 해결 방안을 다룹니다. Caching 및 Persist 함수는 RDD 또는 Dataframe을 메모리에 저장하여 중복 활용 시 성능을 높이는 데 사용됩니다.

하지만 과도한 캐싱은 오히려 디스크 spill over를 유발하여 성능 저하를 초래할 수 있습니다. Spark UI의 Storage 탭을 통해 spill over 현상을 확인할 수 있으며, 이는 Storage Memory 부족으로 인해 발생합니다.

storageFraction 조정, 사용하지 않는 캐시 해제를 위한 unpersist() 호출, 그리고 파티션 재정렬(repartition)을 통한 메모리 저장 비율 향상 등이 제시됩니다. repartition)을 통한 메모리 저장 비율 향상 등이 제시됩니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

Spark 2편 – Caching 및 Persist

AI 요약

AI 추천 연관 게시글

Spring Data Redis Repository 미숙하게 사용해 발생한 장애 극복기

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

Spring Session + Custom Session Repository 기반 세션 저장소의 메모리 누수 해결

Reactor Netty Memory Leak 이슈 탐방기

Spark Shuffle Partition과 최적화