[BigData] Spark 개요 정리
SparkBigData분산 처리통합 분석 엔진인메모리 컴퓨팅데이터 처리
AI 요약
Beta본 글은 BESPIN GLOBAL의 김철환님이 작성한 Spark 개요 정리 글입니다. Spark는 SQL, 스트리밍, 머신러닝, 그래프 처리를 위한 모듈을 포함하는 대규모 데이터 처리를 위한 통합 분석 엔진입니다.
Hadoop, Mesos, Kubernetes 등 다양한 환경에서 실행 가능하며, 여러 데이터 소스를 지원합니다. Spark의 핵심 목표는 빅데이터 애플리케이션 개발에 필요한 플랫폼을 제공하는 것으로, 데이터 읽기, SQL 처리, 스트림 처리, 머신러닝 등 다양한 작업을 일관된 API로 수행할 수 있습니다.
Spark는 영구 저장소 역할은 하지 않고 데이터를 연산하는 역할에 집중하며, 클라우드 스토리지, 파일시스템, Key-Value Store, 메시징 서비스 등 다양한 스토리지를 지원합니다. Spark Core를 포함한 5가지 주요 구성요소를 통해 분산 데이터 처리를 효율적으로 수행합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기
