From Seq2Seq to Transformer

Natural Language Process

From Seq2Seq to Transformer

robin0309 2023. 1. 30. 17:19

Encoder

- sequence를 하나의 context vector로 압축

Decoder

- Context vector를 condition으로 받는 조건부 언어모델

Generator

- 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환

seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기)

attention 직관적인 설명

query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합

-> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것

서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨

-> 이에 따라 pad에 attention weight가 할당 될 수 있는데 이를 방지하기 위해, dot-prodcut 결과 값에 masking을 통해 음의 무한대 값을 넣어줌으로서, softmax 이후의 attention weight를 0으로 만들 수 있음

-> 학습시 미래의 time-step에 어텐션 웨이트가 할당되는 것을 막을 수도 있음

Transformer Overview

Multi-head Attention

저작자표시 비영리 변경금지 (새창열림)

'Natural Language Process' 카테고리의 다른 글

GPT-3 학습 방법 - Context Learning (0)	2023.03.17
ALBERT 개념 정리 (0)	2023.02.13

현재글From Seq2Seq to Transformer

Data Science 관련 지식들에 대해 정리하는 공간입니다.

deepfm, 프로그래머스, LEVEL 1, pytorch, Classification, 딥러닝, ARIMA, LEVEL1, 앙상블, 추천시스템, 강화학습, Keras, 알고리즘, LEVEL2, matrix factorization, Kaggle, deeplearning, feature importance, 시계열, Word2Vec,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

AI/ML 기술 블로그