Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

SK플래닛·2024년 10월 23일·00

Spark StreamingHiveOozieAirflowData PipelineBig Data

AI 요약

Beta

이 글은 SK플래닛의 Hadoop 기반 빅데이터 시스템에서 파생 데이터 생성 지연 문제를 해결하기 위한 Spark Streaming 도입 사례를 다룹니다. 기존에는 Hive Query와 Oozie, Airflow를 이용한 배치 방식으로 파생 데이터를 생성하여 데이터 지연이 발생했지만, 이를 개선하기 위해 'Streaming Platform as a Service(SPaaS)' 개념을 도입하고 'Router'라는 서비스를 개발했습니다.

Router는 데이터 파이프라인을 시각화하고 Hive Query를 재사용하며, 실시간 데이터 처리를 통해 파생 데이터 생성 시간을 단축하는 것을 목표로 합니다. 이를 통해 데이터 분석 및 인사이트 도출의 신속성을 높이고 새로운 서비스 제공 지연을 해소할 수 있습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

AI 요약

AI 추천 연관 게시글

Spark Cluster 구축기

AI 실시간 추천 시스템을 위한 Flink 기반 스트림 조인 서비스 구축기

Spark 4편 – Broadcast

Kafka Lag 없는 실시간 데이터 파이프라인을 위한 아키텍처 개선기

Spark Job 성능 모니터링과 최적화를 위한 Spark Analyzer 개발기