Encoder - sequence를 하나의 context vector로 압축 Decoder - Context vector를 condition으로 받는 조건부 언어모델 Generator - 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환 seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기) attention 직관적인 설명 query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합 -> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것 서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨 -> 이에 따라 pad에 attention weight가 할당 될 ..