플레이스 데이터 플랫폼 구축기- 어뷰즈 검출 사례
이 글은 플레이스 데이터 플랫폼 팀에서 사용자들의 영수증, 리뷰, 예약 및 업체 정보를 수집하여 Data Lake/Warehouse를 구축하고, 이를 활용해 어뷰즈를 검출하는 사례를 다룹니다. 고품질 서비스를 위해 어뷰저를 찾고 제재하는 것이 중요하며, 이를 위해 여러 서비스 데이터를 통합하고 관련 팀과 협업하는 과정에서 발생한 기술적 난제들을 Data Lake/Warehouse 기반으로 해결했습니다. 특히, 서비스 DB와 HDFS 간의 동기화를 위해 Kafka Source Connector와 Spark-Streaming을 이용한 ETL 파이프라인을 구축했습니다. Kafka Source Connector는 다양한 DBMS의 CDC 데이터를 받아 Kafka에 퍼블리쉬하고, Spark-Streaming은 이 데이터를 HDFS에 Parquet 포맷으로 저장하며 시간/일자별 파티셔닝을 적용하여 조회 비용을 낮추고 처리 성능을 높였습니다. Spark-Streaming의 설정 변경을 통한 컴퓨팅 리소스 확장, 모니터링, Auto Scaling 및 Backpressure 기능 활용에 대해서도 언급합니다.
데이터 플랫폼어뷰즈 검출Data Lake
네이버플레이스·2021년 12월 15일