devmoa

데이터 엔지니어링 관련 소프트웨어 장애 대응 사례

라인·2019년 2월 14일·00
데이터 엔지니어링소프트웨어 장애HadoopYARN리소스 매니저failoverHA

AI 요약

Beta

LINE Data Labs의 데이터 엔지니어가 Hadoop 클러스터에서 발생한 YARN 리소스 매니저의 failover 문제 대응 사례를 공유합니다. 시스템은 Sqoop, HDFS, MapReduce, TEZ, Spark 등을 활용하며, HA 구성된 YARN 클러스터에서 액티브 리소스 매니저가 Zookeeper와의 연결이 끊어져 standby 모드로 전환되는 현상이 반복되었습니다.

본문에서는 이러한 장애 발생 원인을 분석하고 해결 방안을 제시하여 안정적인 데이터 처리 시스템 운영에 기여하는 것을 목표로 합니다. 이는 대규모 데이터 처리 환경에서 발생할 수 있는 장애에 대한 실질적인 해결 경험을 제공합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다