RDS IOPS 장애 대응기
RDSMySQLIOPS데이터베이스장애 대응성능 개선
AI 요약
Beta버즈빌에서 AWS RDS MySQL 데이터베이스 운영 중 발생한 메모리 및 IOPS 관련 장애와 해결 과정을 공유하는 글입니다. 월 2천만 사용자, 월 70억 건의 광고 요청을 처리하는 환경에서 user 서비스의 RPS가 5000/s에 달하는 상황에서, CPU 스로틀링, 메모리 사용량 급증, Goroutine 증가, MySQL replica 연결 폭증 등의 문제가 발생했습니다.
RDS 모니터링 결과 IOPS 증가로 인한 burst balance 고갈이 원인으로 파악되었고, 스토리지 증설로 단기적인 문제를 해결했습니다. 이후 높은 디스크 I/O의 근본 원인을 조사하기 위해 3일간의 burst balance 변화를 분석한 결과, 낮 시간대에 지속적으로 burst balance를 사용하는 패턴을 확인했으며, 이에 대한 추가적인 조사와 해결 방안 모색이 필요함을 시사합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


