DevOpsKubernetes 기반 사내 개발 환경 구축기 3편: LPU를 위한 Kubernetes Device Plugin
본 글은 Kubernetes 기반 사내 개발 환경 구축 시리즈의 세 번째 글로, LPU(LLM Processing Unit)와 같은 커스텀 리소스를 Kubernetes 환경에서 인식하고 스케줄링하기 위한 Device Plugin의 필요성과 동작 원리에 대해 설명합니다. Kubernetes는 기본적으로 CPU와 메모리만 인식하므로, GPU, FPGA 등 특수 하드웨어를 사용하기 위해서는 Device Plugin을 통해 해당 하드웨어를 클러스터에 노출하고 관리해야 합니다. 글에서는 하이퍼엑셀의 LPU를 위한 Device Plugin 개발 과정과 ASIC 기반 LPU인 Bertha를 위한 플러그인 개발에 대해 간략히 소개하며, 나아가 동적 리소스 할당 기술인 DRA(Dynamic Resource Allocation)와 Kubernetes 스케줄러 및 Device Plugin과의 연관성까지 다룹니다. 이를 통해 Kubernetes 환경에서 커스텀 하드웨어를 효율적으로 활용하는 방안을 제시합니다.



