devmoa

우아~한 장애대응

우아한형제들·2021년 6월 30일·00
장애 대응시스템 신뢰성모니터링알람고객 신뢰온콜

AI 요약

Beta

우아한형제들 시스템신뢰성개발팀에서 장애 대응의 중요성과 구체적인 활동을 설명하는 글입니다. 장애는 서비스 성장에 따른 자연스러운 현상이지만, 이를 어떻게 대응하느냐에 따라 고객 신뢰를 지킬 수 있다고 강조합니다.

장애 탐지 과정에서는 시스템 알람과 고객 센터 문의를 통한 인지를 다룹니다. 시스템 알람은 CPU, Memory, latency, 5xx error 등 시스템 지표뿐만 아니라 비즈니스 지표, 외부 연동 시스템 지표까지 다양하게 활용하며, Slack 알람 및 온콜 운영을 통해 신속하게 이상 징후를 파악합니다.

또한, 시스템으로 탐지하기 어려운 특수한 오류는 고객 센터 문의를 통해 인지하고 서비스 담당자들과 공유하여 해결합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다