devmoa

데이터 분석 라이브러리 개발기 (1)

데브시스터즈·2020년 11월 27일·00
PySpark데이터 분석라이브러리 개발Apache Spark데이터 엔지니어링AWS S3

AI 요약

Beta

이 글은 데이터플랫폼셀의 데이터 엔지니어 김민수님이 PySpark를 활용하여 데이터 분석가들이 빅데이터를 쉽게 분석할 수 있도록 돕는 DevPlay Analytics 라이브러리를 개발한 과정을 소개하는 시리즈의 첫 번째 편입니다. Apache Spark와 PySpark의 기본 개념을 설명하며, 데이터가 AWS S3에 적재되는 과정과 PySpark SQL을 통해 데이터에 접근하고 분석하는 방법을 다룹니다.

데이터 분석가들이 복잡한 PySpark SQL을 더 쉽게 사용할 수 있도록 편의를 제공하는 라이브러리 개발의 필요성과 초기 단계를 보여줍니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다