반응형

TRANSFORMER 2

From Seq2Seq to Transformer

Encoder - sequence를 하나의 context vector로 압축 Decoder - Context vector를 condition으로 받는 조건부 언어모델 Generator - 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환 seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기) attention 직관적인 설명 query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합 -> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것 서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨 -> 이에 따라 pad에 attention weight가 할당 될 ..

BERT의 학습 원리 및 transferlearning

BERT : Pre-training of Deep Bidirectional Trnasformers for Language Understanding 구글에서 개발한 NLP(자연어처리) pre-trained model 로 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 language model 2. 데이터가 충분히 많다면 Embedding이 성능에 큰 영향을 미치는데- 임베딩이 잘 된 단어들이 훈련과정에서 당연히 좋은 성능을 낼 수 밖에없음 3. 데이터의 전처리 임베딩을 Word2Vec, GloVe, Fasttext 방식을 많이 사용했지만, 요즘의 고성능을 내는 대부분의 모델에서 BERT를 많이 사용 4.기존 단방향성 모델은 성능 향상, 문맥 파악에 한계점이 존재했었고, 이를 해결하기 위해 Bert는 양..

Deep Learning 2021.04.14
반응형
반응형