Data Forest에서 Spark, Hive로 데이터 처리하기 Part.1

네이버클라우드플랫폼·2021년 7월 15일·00

Data ForestSparkHiveHadoopZeppelin빅데이터

AI 요약

Beta

네이버 클라우드 플랫폼의 Data Forest 환경에서 Spark와 Hive를 활용하여 빅데이터를 처리하는 방법을 소개하는 글입니다. 1에서는 Zeppelin 노트북을 사용하여 MovieLens 20M 데이터셋을 Spark로 처리하고 HDFS에 저장한 뒤, Hive 테이블을 생성하는 과정을 다룹니다.

Data Forest App 생성부터 Zeppelin 앱 설정까지의 초기 단계를 상세히 설명하며, Spark Job 실행 및 Hive 쿼리 실행을 위한 기본적인 방법론을 제시합니다. 2에서는 spark-submit 및 beeline 커맨드를 이용한 동일 작업 수행 방법을 예고하며, 빅데이터 처리 실무에 대한 실용적인 가이드라인을 제공합니다.

라인을 제공합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기