Spark 8편: Rest API를 통한 데이터 수집
SparkRest API데이터 수집병렬처리PythonUDF
AI 요약
Beta본 글은 Spark를 활용하여 Rest API로부터 대량의 반정형 데이터를 효율적으로 수집하는 방법을 다룹니다. 기존 방식은 Spark의 병렬성을 활용하지 못하거나 Python의 requests 라이브러리를 Driver에서만 사용하여 성능 저하 및 OOM 문제를 야기할 수 있습니다.
글에서는 이러한 문제점을 해결하기 위해 Spark UDF를 활용하여 Rest API 데이터를 수집하는 방안을 제시합니다. 이를 통해 Spark의 병렬 처리 능력을 최대한 활용하면서 외부 시스템의 데이터를 효과적으로 수집할 수 있는 방법을 소개하며, 데이터 엔지니어링 관점에서 성능 최적화 방안을 모색합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

