AI처음부터 시작하는 자연어처리(3)
이 글은 자연어처리 기술 중 단어 임베딩 방식인 word2vec에 대해 설명합니다. Distributional Hypothesis(분산가설)를 기반으로, 비슷한 문맥에서 사용되는 단어들은 비슷한 의미를 가진다는 원리를 활용합니다. word2vec은 CBOW(Continuous Bag-of-Words)와 skip-gram 두 가지 학습 방식으로 나뉩니다. CBOW는 주변 단어들을 입력으로 중심 단어를 예측하고, skip-gram은 중심 단어를 입력으로 주변 단어들을 예측합니다. 글에서는 특히 CBOW의 학습 과정과 단어 벡터화를 위한 원-핫 인코딩 방식에 대해 예시와 함께 설명하고 있습니다.










