devmoa

컬리의 BigQuery 도입기 - 2부

컬리·2023년 2월 17일·00
BigQuery데이터 파이프라인AWS DMSKafkaCDCGCP Cloud ComposerAirflow

AI 요약

Beta

컬리는 데이터 파이프라인의 효율성 증대를 위해 BigQuery를 도입했습니다. 이 글은 2부로, 1부에서 다룬 도입 배경에 이어 신규 데이터 파이프라인 아키텍처와 도입 결과 및 효과를 상세히 설명합니다.

정형 데이터 파이프라인은 RDBMS에서 AWS DMS와 Kafka를 통해 CDC 로그를 수집하고 BigQuery Streaming API로 저장합니다. GCP Cloud Composer(Airflow)의 Merge Procedure를 활용하여 BigQuery의 CDC 로그 테이블에서 최종 테이블을 주기적으로 업데이트하며, 이를 통해 원본 DB와 동일한 상태를 유지합니다.

비정형 데이터 파이프라인은 스키마 변환 과정을 거쳐 BigQuery에 저장됩니다. BigQuery 도입 후 데이터 처리 속도 향상, 비용 절감, 운영 효율성 증대 등 가시적인 성과를 거두었습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다