고성능 GPU 클러스터 도입기 #2: 이주하는 데이터

토스·2024년 10월 14일·00

GPU 클러스터LLMNVLinkNVSwitchInfiniBand통신 비용하드웨어 최적화

AI 요약

Beta

토스증권에서 LLM 개발을 위해 고성능 GPU 클러스터를 구축한 경험을 공유하는 글입니다. LLM과 같은 대규모 모델은 단일 GPU에 담기 어려워 수십, 수백 개의 GPU를 연결하는 클러스터 구축이 필수적입니다.

이 과정에서 발생하는 '통신 비용'이 전체 성능에 큰 영향을 미치며, CPU-GPU, GPU-GPU, 서버 간 GPU 통신 등 세 가지 주요 통신 비용을 최적화하는 것이 중요합니다. 소프트웨어적인 방법론 외에도 NVLink, NVSwitch, InfiniBand와 같은 하드웨어 기술을 통해 통신 시간을 단축하고 클러스터 성능을 향상시키는 방안을 제시합니다.

하드웨어 지원 없이는 소프트웨어 최적화가 효과적이지 않거나 불가능할 수 있음을 강조하며, 실제 하드웨어 구성 방안에 대한 설명을 이어갑니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

고성능 GPU 클러스터 도입기 #2: 이주하는 데이터

AI 요약

AI 추천 연관 게시글

고성능 GPU 클러스터 도입기 #1: 요리하라고 해서 왔는데 프라이팬이 없어요

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법

새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법

초고성능 딥러닝 클러스터 구축하기 1편