Samsung Cloud의 대규모 Cassandra 운영: AutoHeal v3 자동복구시스템
CassandraNoSQL데이터베이스고가용성자동 복구운영AutoHeal
AI 요약
BetaSamsung Cloud는 1,200대 이상의 서버와 1PB 규모의 Cassandra 데이터베이스를 운영하며 발생하는 잦은 노드 장애에 대응하기 위해 AutoHeal v3 자동 복구 시스템을 개발했습니다. Cassandra는 Gossip 프로토콜로 노드 상태를 관리하고 파티션 키로 데이터를 분산하며, RF에 따라 복제본을 저장하여 고가용성을 보장하는 분산 NoSQL 데이터베이스입니다.
AutoHeal은 Python으로 작성되어 cronjob으로 주기적으로 실행되며, 클러스터 상태를 조회하여 장애 노드를 감지하면 boto3 라이브러리나 Cassandra 명령을 통해 자동으로 복구합니다. 이 시스템 도입 후 야간/주말 장애 발생 빈도가 크게 줄어 운영 효율성과 안정성이 향상되었습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기
