devmoa

Spark 8편: Rest API를 통한 데이터 수집

베스핀글로벌·2025년 3월 28일·00
SparkRest API데이터 수집병렬처리PythonUDF

AI 요약

Beta

본 글은 Spark를 활용하여 Rest API로부터 대량의 반정형 데이터를 효율적으로 수집하는 방법을 다룹니다. 기존 방식은 Spark의 병렬성을 활용하지 못하거나 Python의 requests 라이브러리를 Driver에서만 사용하여 성능 저하 및 OOM 문제를 야기할 수 있습니다.

글에서는 이러한 문제점을 해결하기 위해 Spark UDF를 활용하여 Rest API 데이터를 수집하는 방안을 제시합니다. 이를 통해 Spark의 병렬 처리 능력을 최대한 활용하면서 외부 시스템의 데이터를 효과적으로 수집할 수 있는 방법을 소개하며, 데이터 엔지니어링 관점에서 성능 최적화 방안을 모색합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다