devmoa

토스증권 Iceberg 적용기 #1: CDC 환경은 왜 제대로 동작하지 않을까?

토스·2025년 9월 10일·00
IcebergCDC데이터 레이크COWMOR데이터 정합성

AI 요약

Beta

토스증권 Realtime Data Team에서 Iceberg 테이블 포맷을 CDC(Capture Data Change) 파이프라인에 적용하면서 겪었던 문제점과 해결 원칙을 공유하는 글입니다. Iceberg는 Update와 Delete를 네이티브하게 지원하여 데이터 레이크의 가능성을 확장하지만, CDC 환경에서는 연속적인 Update/Delete로 인해 데이터 정합성 이슈가 발생하기 쉽습니다.

글에서는 Iceberg의 Update 처리 방식인 COW(Copy-on-Write)와 MOR(Merge-on-Read)을 소개하며, 특히 COW 방식의 경우 작은 업데이트에도 전체 파일을 다시 써야 하므로 쓰기 비용이 크다는 점을 지적합니다. CDC 환경에서 Iceberg를 안전하게 적재하기 위한 구체적인 문제 해결 과정과 원칙을 앞으로 공유할 것을 예고합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다