Natural Language Process

From Seq2Seq to Transformer

robin0309 2023. 1. 30. 17:19

Encoder

- sequence를 하나의 context vector로 압축

Decoder

- Context vector를 condition으로 받는 조건부 언어모델

Generator

- 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환

 

seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기)

 

attention 직관적인 설명

 

query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합

-> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것 

서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨

-> 이에 따라 pad에 attention weight가 할당 될 수 있는데 이를 방지하기 위해, dot-prodcut 결과 값에  masking을 통해 음의 무한대 값을 넣어줌으로서, softmax 이후의 attention weight를 0으로 만들 수 있음

-> 학습시 미래의 time-step에 어텐션 웨이트가 할당되는 것을 막을 수도 있음

 

Transformer Overview

 

Multi-head Attention

반응형

'Natural Language Process' 카테고리의 다른 글

GPT-3 학습 방법 - Context Learning  (0) 2023.03.17
ALBERT 개념 정리  (0) 2023.02.13
반응형