데이터 분석가가 직접 정의, 배포, 관리하는 뱅크샐러드 데이터 파이프라인

뱅크샐러드·2023년 6월 5일·00

데이터 파이프라인데이터 분석AirflowSpark데이터 레이크S3Athena

AI 요약

Beta

뱅크샐러드 Core Data팀에서 데이터 사용자가 직접 정의, 배포, 관리하는 데이터 파이프라인 구축 경험을 공유합니다. 뱅크샐러드 데이터 인프라는 마이크로서비스, 모바일/서버 이벤트, 외부 데이터를 수집하여 S3, Glue 기반 데이터 레이크에 적재하고, Athena, Spark로 분석합니다.

BI 툴인 Metabase와 Jupyter Notebook을 사용하며, Airflow로 관리되는 파이프라인은 Spark 작업을 통해 데이터를 처리합니다. 기존에는 데이터 엔지니어만 파이프라인 개발 및 관리가 가능했지만, 데이터 분석가도 직접 파이프라인을 정의하고 관리할 수 있도록 개선하는 과정에서 겪었던 어려움과 해결 방안을 제시합니다.

이를 통해 데이터 분석가들이 더 효율적으로 데이터에 접근하고 활용할 수 있는 환경을 만드는 데 기여합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

데이터 분석가가 직접 정의, 배포, 관리하는 뱅크샐러드 데이터 파이프라인

AI 요약

AI 추천 연관 게시글

분석 데이터를 프로덕션에서 쉽게 사용할 수 없을까?

뱅크샐러드 Data Discovery Platform의 시작

Self Serving Data Platform 구축하기 (feat. Airflow)

Dataflow로 컬리의 준실시간 수요 예측모델 파이프라인 구축하기 - 1편

데이터에 신뢰성과 재사용성까지, Analytics Engineering with dbt