ALBERT A Lite BERT for Self - supervised Learning of Language Representations 1) Embedding Matrix Factorization Embedding layer의 차원을 줄이고 이를 hidden_size로 복원하는 linear layer 추가 2) Cross-layer parameter sharing 버트는 보통 12개나 24개 정도의 layer를 쓰는데 각 layer마다 weigth parmaeter 가 따로 있는데 layer 가 늘 수록 wp 가 늘어나는게 일반 적인데 알버트는 해당 layer의 wp를 서로서로 공유함 Attention과 FFN layer 의 파라미터를 공유 , 즉 공유되는 파라미터의 layer는 반복 사용됨 3) S..