27.(nlp) BERT 이전의 모델들 review

Neural Machine Translation

less than 1 minute read

Seunghan Lee

Seunghan Lee

Deep Learning, Data Science, Statistics

BERT 이전의 모델들 review

Pre-trained Word Embedding
Pre-trained Language Model
Masked Language Model

1. Pre-trained Word Embedding

word embedding의 방법들 : Word2Vec, FastText, GloVe…

word embedding을 사용하는 방법

1) 가지고 있는 데이터로 처음부터 embedding을 학습하는 방법
2) 이미 학습된 embedding vector를 가져와 사용하는 방법

( if 현재 가지고 있는 데이터가 적을 경우! )

위 두가지 embedding의 문제점?

$\rightarrow$ 문맥을 고려하지 못한다는 점!

Solution : Pre-trained Language Model ( 사전 훈련된 언어 모델 )… ex) ELMo

2. Pre-trained Language Model

방대한 text data로, 사전에 Language Model을 학습하고, 이 결과를 다른 task에 사용!

.

ex) ELMo

biLM을 각각 따로 학습시킨 후에, 이렇게 pre-trained LM으로부터 embedding vector를 얻기.

( but 2018년 Transformer 등장 이후, LM 학습 시, RNN/LSTM등의 recurrent network대신 Transformer를 사용하기 시작 )

.

( Trm = Transformer )

Trend of NLP

pre-trained LM을 만들고, 이를 사용하여 다른 task에 추가적으로 학습!
기존의 “순차적”인 LM에서, 양방향의 LM을 사용! … “Maksed Languange Model”

.

3. Masked Language Model

Input text 단어의 15%의 단어를 random하게 Masking

$\rightarrow$ 이처럼 Masking된 단어들을 예측하도록 학습! ex) BERT

Twitter Facebook LinkedIn

You May Also Enjoy

2 minute read

2 minute read

8 minute read

2 minute read