*사담: 개인적으로 정리한 Transformer paper는 여기에서 확인할 수 있다. Coursera 강의에서는 이전에 알고 있던 방식과 다른 시각에서 해석을 해준다. 1. Transformers Motivation : RNN, GRU, LSTM 같은 모델은 한 번에 한 단어씩 sequential 하게 단어를 processing 한다. 따라서, 마지막 block의 output (마지막 단어)를 계산하기 위해서는 이전 blcok의 output도 모두 계산되어야 한다. 하지만 transformer를 활용하면 전체 sequence에 대해 병렬로 processing 할 수 있다. 2. Transformer Intuition Transformer는 Attention과 CNN-style processing (병렬..