우아~한 장애대응
장애 대응시스템 신뢰성모니터링알람고객 신뢰온콜
AI 요약
Beta우아한형제들 시스템신뢰성개발팀에서 장애 대응의 중요성과 구체적인 활동을 설명하는 글입니다. 장애는 서비스 성장에 따른 자연스러운 현상이지만, 이를 어떻게 대응하느냐에 따라 고객 신뢰를 지킬 수 있다고 강조합니다.
장애 탐지 과정에서는 시스템 알람과 고객 센터 문의를 통한 인지를 다룹니다. 시스템 알람은 CPU, Memory, latency, 5xx error 등 시스템 지표뿐만 아니라 비즈니스 지표, 외부 연동 시스템 지표까지 다양하게 활용하며, Slack 알람 및 온콜 운영을 통해 신속하게 이상 징후를 파악합니다.
또한, 시스템으로 탐지하기 어려운 특수한 오류는 고객 센터 문의를 통해 인지하고 서비스 담당자들과 공유하여 해결합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기



