AI2부: 정책을 따르는 평가자, LLM-as-a-Judge
본 글은 Tinder의 AI-enabled Discovery 서비스에서 LLM을 활용하여 "당신은 왜 이 사람과 잘 맞을까요?"라는 질문에 답하는 설명을 생성하는 모듈 개발 과정을 다룹니다. 특히, 사람이 만든 설명 정책을 LLM Judge로 구조화하여 평가를 자동화하고, 이를 통해 디버깅 및 데이터 정제에 활용한 경험을 공유합니다. LLM 모델 개발을 위해서는 제품적 의사결정과 기술적 의사결정을 모두 고려한 엄밀한 "설명 정책" 수립이 필수적임을 강조하며, 이러한 정책을 실제 평가 시스템으로 구현하는 구체적인 방법을 소개합니다.
