Spark Job 성능 모니터링과 최적화를 위한 Spark Analyzer 개발기
SparkSpark Analyzer성능 모니터링DataFlintSpark Job비용 최적화
AI 요약
Beta토스 코어 Data Warehouse 팀에서 Spark 작업의 효율적인 실행을 모니터링하기 위해 Spark Analyzer를 개발한 경험을 공유합니다. 하루 평균 6천 개 이상의 Spark 작업이 실행되는 환경에서 비효율적인 작업으로 인한 시스템 부담과 비용 증가 문제를 해결하고자 했습니다.
Uber의 Spark Application 안티 패턴 블로그 글에서 영감을 받아 Spark 메트릭을 계산하고 성능 개선이 필요한 작업에 자동으로 경고를 보내는 시스템을 구상했습니다. DataFlint 플러그인을 활용하여 Spark 메트릭 시각화 및 문제 파악에 도움을 받았지만, 수동 확인의 비효율성을 느껴 REST API를 제공하지 않는 DataFlint의 한계를 극복하고 주기적인 알림 시스템을 구축하기 위한 고민을 담고 있습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


