Spark 2편 – Caching 및 Persist
SparkCachingPersistRDDDataframespill over
AI 요약
Beta이 글은 Apache Spark에서 데이터 처리 성능을 향상시키기 위한 Caching 및 Persist 기능과 관련 문제점 및 해결 방안을 다룹니다. Caching 및 Persist 함수는 RDD 또는 Dataframe을 메모리에 저장하여 중복 활용 시 성능을 높이는 데 사용됩니다.
하지만 과도한 캐싱은 오히려 디스크 spill over를 유발하여 성능 저하를 초래할 수 있습니다. Spark UI의 Storage 탭을 통해 spill over 현상을 확인할 수 있으며, 이는 Storage Memory 부족으로 인해 발생합니다.
storageFraction 조정, 사용하지 않는 캐시 해제를 위한 unpersist() 호출, 그리고 파티션 재정렬(repartition)을 통한 메모리 저장 비율 향상 등이 제시됩니다. repartition)을 통한 메모리 저장 비율 향상 등이 제시됩니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기
