Kanana 언어모델에 추론 기능 붙여보기 (feat. Kanana-1.5)
LLMKanana추론Supervised Fine-TuneSFTReinforcement LearningRL
AI 요약
Beta카카오의 언어모델 'Kanana'에 추론 기능을 도입하는 연구 과정을 공유하는 글입니다. LLM의 추론 능력 향상에 대한 관심이 높아짐에 따라, Kanana의 성능 개선을 위해 추론 기법을 적용했습니다.
글에서는 추론 능력의 지표로 계획, 평가, 반성, 탐구 등의 사고 과정이 모델 답변에 나타나는 것을 제시하며, 이를 위해 추론 중심의 학습 데이터를 활용한 Supervised Fine-Tune(SFT)의 중요성을 강조합니다. SFT는 강화학습(RL)이 효과적으로 작동하기 위한 기반을 마련하며, Zero-RL 실험 결과를 통해 SFT 없이 RL을 적용했을 때의 한계를 보여줍니다.
이를 통해 Kanana 모델의 추론 능력 향상을 위한 연구 방향과 인사이트를 제공합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기