반응형

Word2Vec 2

Embedding layer와 Embedding Vector의 Output 차이 정리

Word Embedding Vector Skip - gram : 주변 단어가 비슷한 단어일수록 비슷한 임베딩 값을 갖도록 학습 Word2vec 하이퍼파라미터의 설정 값에 따라 각자 단어들 사이가 의미하는 벡터 값이 달라 질 여지가 많음 특수한 상황을 제외하고(product2vec 같은 것을 구현할 때 사용), 실제 NLP에서 드물게 활용됨 딥러닝은 END TO END를 지향하므로 중간 산출물을(embedding vector) 단독으로 쓰이는 것이 쉽지 않음 Embedding Layer 무작위로 특정 차원으로 입력 벡터들을 뿌린 후 학습을 통해 가중치들을 조정해 나가는 방식 즉, 단어 사이의 관계를 반영하는 방법이 아님 원핫 인코딩 된 이산 샘플의 벡터를 받아, 연속 벡터로 변환 높은 차원의 벡터를 효율적..

Deep Learning 2023.02.14

Word2VeC (Cbow , Skip-gram)

* Sparse Representation 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법 -> 희소표현 -> 이것은 각 단어간 유사성을 표현 할 수 없음 그래서 나온 것이 단어의 '의미'를 다차원 공간에 벡터화하는 방법인 분산표현이 나옴 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업 -> 워드 임베딩(embedding) * 분산 표현(Distributed Representation) 기본적으로 분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법 -> '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 가정 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 되고 원핫이 아..

Deep Learning 2021.04.14
반응형
반응형