Apache Spark에서 컬럼 기반 저장 포맷 Parquet(파케이) 제대로 활용하기
Apache SparkParquet데이터 저장 포맷데이터 분석성능 개선압축률
AI 요약
Beta이 글은 VCNC 팀이 데이터 분석을 위해 Apache Spark를 사용하면서 겪었던 성능 및 저장 공간 문제를 해결하기 위해 컬럼 기반 저장 포맷인 Parquet를 도입한 경험을 공유합니다. 기존에 JSON 형식의 로그 파일을 그대로 저장하고 처리하는 방식은 데이터 관리 비용은 낮았지만, 불필요한 데이터 처리로 인한 성능 저하가 있었습니다.
Parquet로 전환한 결과, 저장 용량은 74% 감소하고 처리 성능은 10~30배 향상되는 큰 성과를 얻었습니다. 글에서는 Parquet의 개념과 장점(높은 압축률, 효율적인 데이터 처리)을 설명하며, 실제 적용 과정에서 얻은 교훈과 성공적인 데이터 저장 포맷 변경 경험을 상세히 다룹니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기
