devmoa

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기

펫프렌즈·2025년 11월 7일·00
KafkaS3CDC데이터 파이프라인실시간 데이터 수집Debezium

AI 요약

Beta

이 글은 펫프렌즈에서 기존 배치 방식의 데이터 수집 및 가공 방식에서 실시간 데이터 수집의 필요성이 대두된 배경과 이를 해결하기 위한 파이프라인 설계 및 구축 과정을 다룹니다. 기존 MariaDB Trigger 기반의 로그 테이블 운영 방식은 스키마 변경 시 관리 부담이 크고 확장성에 한계가 있었습니다.

이를 해결하기 위해 CDC(Change Data Capture) 방식을 도입하여 로그 이벤트를 Kafka 토픽으로 발행하고, 별도의 컨슈머가 이를 읽어 S3에 적재하는 방식으로 전환했습니다. 특히 MSK와 Debezium을 활용한 CDC 토픽 구축 경험을 바탕으로 컨슈머를 개발했습니다.

또한, 광고 및 사용자 행동 이벤트 데이터를 장기 보관하고 분석하기 위한 요구사항을 충족하기 위해 실시간 데이터 수집 파이프라인의 중요성을 강조합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다