ELMo (Embeddings from Language Model)

( 참고 : “딥러닝을 이용한 자연어 처리 입문” (https://wikidocs.net/book/2155) )

1. Introduction

ELMo는 “문맥”을 고려한 word embedding 방법이다.

예를 들어, “배가 고프다”와, “배를 타고 여행을 가다”에서의 “배”는 서로 다른 뜻을 가진다. 하지만, word2vec이나 GloVe는 이와 같은 차이를 구분하지 못한다. 하지만, ELMo는 문맥을 고려하여 embedding을 하여, 보다 나은 성능을 보여준다.

2. bi-RNN vs biLM of ELMO

ELMo는 순방향/역방향 LM(언어 모델)을 둘 다 사용한 biLM (Bidirectional Languange Model)이다. ( 아래의 그림 참고 )

위의 그림은 마치 이전에 배웠단 bidirectional RNN과 유사해보이지만, ELMo의 biLM은 이와 약간 다르다.

bidirectional RNN : forward & backward RNN의 hidden state를 concatenate한 이후로 다음 층의 입력으로 사용
biLM of ELMo : forward & Backward RNN 각각의 hidden state만을 다음 층의 입력으로 사용

그림을 참고하면 이해하기 쉽다.