AI텍스트와 벡터가 함께 사는 인덱스를 만드는 과정
바비톡은 사용자의 자연스러운 질의에 대한 검색 품질을 높이기 위해 OpenSearch 기반의 텍스트-벡터 하이브리드 인덱스를 설계하고 구축했습니다. 기존 키워드 검색의 한계를 극복하고 문장의 의미를 파악하는 하이브리드 검색 구조를 도입하기 위해, 의미 유사도 정확성, 속도, 비용 효율성, 배포 용이성을 기준으로 다양한 임베딩 모델을 비교 검토했습니다. 그 결과, 다국어 지원과 긴 텍스트 처리에 강점을 가진 Amazon Titan Embedding v2를 선정했습니다. 이 글은 임베딩 모델 선정 과정, 하이브리드 인덱스 설계, ETL 파이프라인 구성, RAG 및 다국어 검색 확장 등 실제 운영 사례를 중심으로 자연어 검색 품질 향상 경험을 공유합니다.
OpenSearch텍스트 벡터 하이브리드 인덱스임베딩 모델