Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기
Agentic AIOpsMulti-Agent SystemRCA 자동화GenAISamsung AccountStrands Agents SDKHierarchical Delegation
AI 요약
Beta삼성계정 서비스 운영팀은 대규모 서비스 환경에서 장애 발생 시 경험과 직관에 의존하는 Root Cause Analysis(RCA)의 한계를 극복하고자 Agentic AIOps Multi-Agent 시스템을 구축했습니다. 이 시스템은 Datadog, CloudWatch, EKS 로그 등 풍부한 Observability 데이터를 활용하여 이상 탐지부터 근본 원인 분석, 조치 제안까지의 전 과정을 5분 이내로 자동화하는 것을 목표로 합니다.
Strands Agents SDK의 Agents as Tools 패턴과 계층적 위임 구조, FastMCP 기반 Custom MCP 서버 구축을 통해 MTTR과 MTTD 단축, 500 에러 발생 시 관련 서비스 및 조치 가이드 자동 제공 등의 과제를 해결했습니다. 본 포스팅은 이러한 기술적 구현 상세를 공유하며, GenAI를 활용한 서비스 운영 자동화의 실제 사례를 제시합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기



