Word Embedding에서 Word2Vec과 Glove에 대해서 명확히 알고 싶어서 질문합니다. Word2Vec는 유사한 단어는 서로 input vector이 비슷하고 연관된 단어는 한 단어의 input vector과 다른 하나의 output vector과 비슷한 것이 특징. 또한 P26처럼 도출하고픈 단어에서 연관단어는 더하고 필요 없는 단어는 빼서 벡터화 한 행렬을 계산을 했을 때의 벡터를 뜻하는 단어가 도출하고픈 단어인지를 보는 것인가요? GloVe의 수식에서 뒤에는 MSE를 말하는것 같고 f는 어떤 함수를 나타낼까요? - 신곤 -
제 생각에는 Word Embedding 개념자체가 비슷한 의미의 단어가 비슷한 벡터 값을 갖는다. 그래서 벡터 연산으로 비슷한 단어, 반대 단어를 찾을 수 있다.라는 것이고 워드 임베딩을 만드는 방법이 W2V, GloVe인 것 같습니다. W2V은 같은 문장에서 나타난 단어들은 비슷한 의미일거야.라는 가정으로 특정 단어의 주변 단어로 확률 분포를 예측하는 방식으로 학습하고 GloVe는 단어 쌍이 동시에 나타나는 횟수를 미리 계산해서 W2V와 다르게 학습 속도가 빠르다는 장점이 있다. 라고 이해했어요. 이렇게만 이해하고 넘어가기에는 부족한 것 같아서 더 공부를 해보겠습니다... W2V, GloVe의 정확한 원리는 아직 잘 모르겠네요... 그리고 MSE는 예측값과 실제값의 차이이고 GloVe의 수식 뒷부분은 입력임베딩, 출력임베딩의 내적값과 입출력 단어 쌍의 빈도수의 차이 맞을까요? MSE랑 비슷한 의미인지 잘 모르겠습니다. ! - 아경
P26처럼 도출하고픈 단어에서 연관단어는 더하고 필요 없는 단어는 빼서 벡터화 한 행렬을 계산을 했을 때의 벡터를 뜻하는 단어가 도출하고픈 단어인지를 보는 것인가요? → 이 부분은 word2vec으로 단어를 벡터로 임베딩을 하는 경우 나타나는 특징으로 이해하면 될 것 같습니다. 벡터 공간상에서 단어들의 위치가 단어들의 관계를 나타내준다 라고 생각하시면 될 것 같습니다. -진원
king — man + woman = queen
f의 경우 가중치 함수로 슬라이드에 나온 형태의 함수입니다. 간단하게 설명하자면 단어의 빈도수에 따라서 너무 적게 나온 단어들에 대해 적은 가중치를 주기 위한 것으로 보시면 될 것 같습니다. https://wikidocs.net/22885 링크 참고하시면 좀 더 자세하게 설명되어있습니다. -진원
기존 loss fn에서는 단어 빈도수에 맞게 penalty를 주지 못 해서 weight fn을 통해 너무 자주 등장하는 단어에 큰 가중치를 주지 않되, 자주 등장하지 않는 단어에 대해서도 penalty를 주는 최종적인 형태의 loss fn인 거 같습니다. - 진