반응형

Natural Language Process 3

GPT-3 학습 방법 - Context Learning

Context Learning 대부분의 PLM은 사전학습 이후에 파인튜닝을 통해 Task를 학습하는데 파인튜닝 없이 PLM만으로 동작이 가능할까? parameter update (back -prop)없이 feed - forward 만을 통해 학습 수행 Few shot example을 주고 학습을 하고 Query를 받고 결과를 산출 Context Learning 정의 각 time - step의 hidden representation은 해당 step 까지의 정보가 담겨 있음 비록 파라미터 업데이트는 없지만 , 이것을 학습의 일환으로 볼수 있지 않을까? 이전의 정보가 잘 인코딩 되어 있다면, 이후에 이 정보를 바탕으로 추론을 수행 할 수 있을 것이라는 원리 Few shot learning (finetuning..

ALBERT 개념 정리

ALBERT A Lite BERT for Self - supervised Learning of Language Representations 1) Embedding Matrix Factorization Embedding layer의 차원을 줄이고 이를 hidden_size로 복원하는 linear layer 추가 2) Cross-layer parameter sharing 버트는 보통 12개나 24개 정도의 layer를 쓰는데 각 layer마다 weigth parmaeter 가 따로 있는데 layer 가 늘 수록 wp 가 늘어나는게 일반 적인데 알버트는 해당 layer의 wp를 서로서로 공유함 Attention과 FFN layer 의 파라미터를 공유 , 즉 공유되는 파라미터의 layer는 반복 사용됨 3) S..

From Seq2Seq to Transformer

Encoder - sequence를 하나의 context vector로 압축 Decoder - Context vector를 condition으로 받는 조건부 언어모델 Generator - 디코더의 hidden state를 softmax를 통해 multinoulli 분포로 변환 seq2seq 가 attention이 추가가 안된 시기들이 있음 (굉장히 짧은 시기) attention 직관적인 설명 query를 날려서 key에 매칭을 하고 query와 key 비슷한 정도 대로 정보를 취합 -> 디코더는 인코더에 필요한 정보들을 요청하여 검색해서 필요한 정보를 취해오는 것 서로 다른 길이의 시퀀스들이 배치로 묶일 경우, pad가 빈 칸에 할당 됨 -> 이에 따라 pad에 attention weight가 할당 될 ..

반응형
반응형