HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
HPCSlurm스케줄러Job 스케줄링자원 관리컨테이너
AI 요약
Beta본 글은 HPC(고성능 컴퓨팅) 환경의 핵심 요소인 스케줄러, 특히 Slurm의 내부 구조와 작동 방식을 심층적으로 다룹니다. 1편에서 소개된 HPC의 기본 개념에 이어, 2편에서는 Slurm의 아키텍처, 핵심 데몬(slurmctld, slurmd, slurmdbd)의 역할, 그리고 Job 제출부터 종료까지의 전체 라이프사이클을 상세히 설명합니다.
또한, Worker 노드에서의 실제 작업 처리 과정, 대화형 및 배치 작업, Job 배열 등 실전 활용 예제를 제공하며, QOS, Fairshare, Preemption과 같은 자원 관리 정책 및 실무에서 자주 발생하는 문제 해결 방안까지 소개합니다. 이를 통해 Slurm의 복잡한 동작 원리를 이해하고 효과적으로 활용하는 방법을 안내합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


