Encoder
- sequence를 하나의 context vector로 압축
Decoder
- Context vector를 condition으로 받는 조건부 언어모델
Generator
- 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환
seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기)
attention 직관적인 설명
query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합
-> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것
서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨
-> 이에 따라 pad에 attention weight가 할당 될 수 있는데 이를 방지하기 위해, dot-prodcut 결과 값에 masking을 통해 음의 무한대 값을 넣어줌으로서, softmax 이후의 attention weight를 0으로 만들 수 있음
-> 학습시 미래의 time-step에 어텐션 웨이트가 할당되는 것을 막을 수도 있음
Transformer Overview
Multi-head Attention
반응형
'Natural Language Process' 카테고리의 다른 글
GPT-3 학습 방법 - Context Learning (0) | 2023.03.17 |
---|---|
ALBERT 개념 정리 (0) | 2023.02.13 |