devmoa

리디북스 서비스 장애 복구 후기

리디·2016년 9월 2일·00
서비스 장애복구 후기데이터센터인프라이중화클라우드

AI 요약

Beta

리디북스에서 발생한 21분간의 서비스 전체 중단 장애에 대한 복구 후기입니다. 이번 장애는 특정 서버 랙의 서버 17대가 동시에 다운된 데이터센터의 전원 공급 문제로 발생했으며, 이는 일반적인 소프트웨어 또는 물리적 장애와는 다른 양상이었습니다.

장애의 근본 원인은 데이터센터의 전원 공급 실패였고, 2차적인 원인은 이러한 데이터센터 장애에 대한 인프라 설계 부족이었습니다. 이 경험을 바탕으로 데이터센터 이중화 및 클라우드 지역 장애 대비를 위한 복제 계획 수립의 필요성을 인지하게 되었습니다.

장애 당시 데이터베이스 프록시, 리버스 프록시, 웹 서버, API 서버 등 다양한 서버들이 영향을 받았으나, 가상 IP 구성을 통해 즉각적인 서비스 공지가 가능했습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다