devmoa

Dataflow로 컬리의 준실시간 수요 예측모델 파이프라인 구축하기 - 1편

컬리·2023년 4월 10일·00
DataflowApache BeamGCP파이프라인준실시간수요 예측

AI 요약

Beta

컬리 데이터플랫폼팀에서 준실시간 수요 예측 모델 서빙을 위한 파이프라인 구축 경험을 공유하는 글입니다. 대용량 분산 처리와 스트리밍 프로세싱을 지원하는 구글 Dataflow 서비스를 도입하게 된 배경과 서비스 전반의 개념, 그리고 배포 과정을 1편에서 다룹니다.

컬리에서는 시시각각 변하는 고객 주문 데이터를 실시간으로 반영하여 수요량을 예측하는 통계 모델을 사용하는데, 이를 위해 1년치 과거 데이터를 기반으로 하는 파이프라인이 필요했습니다. AWS MSK(Kafka)에 수집된 주문 데이터는 BigQuery로 적재되며, 이 BigQuery 데이터를 기반으로 Dataflow를 활용하여 준실시간 모델 서빙 파이프라인을 구축했습니다.

Dataflow는 완전관리형 클라우드 서비스로, 대용량 데이터 처리와 스트리밍 환경을 동시에 충족하며 자동 확장 및 재조정 기능 등을 제공합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다