하둡에 대해서
하둡Hadoop분산 파일 시스템HDFSYarnMapReduceSpark
AI 요약
Beta이 글은 토스 기술 컨퍼런스 slash21에서 접한 백엔드 아키텍처 발표 내용을 이해하기 위해 하둡(Hadoop)에 대해 학습한 내용을 정리합니다. 하둡은 Java로 개발된 오픈소스 분산 클러스터 파일 시스템으로, 여러 컴퓨터를 연결하여 성능을 향상시키는 데 사용됩니다.
하둡 생태계는 HDFS(분산 파일 저장소), Yarn(자원 관리), MapReduce(데이터 처리), Spark(메모리 기반 고속 처리) 등으로 구성됩니다. 특히 MapReduce의 디스크 I/O 병목 현상을 해결하기 위해 등장한 Spark는 메모리를 활용하여 데이터 처리 속도를 크게 향상시키며, 스트리밍 및 SQL 처리 등 범용성도 높습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

