[논문리뷰]attention is all you need-2

fffhyun 2026. 1. 5. 22:55

2026. 1. 5. 22:55

Scaled Dot-Product Attention

Self - Attention

Multi-Head Attention

Position-wise Feed-Forward Networks

Positional Encoding

3. Model Architecture

트렌스포머는 seq2seq 구조와 유사하게 , encoder / decoder 구조로 구성되어있다.

encoder와 decoder는 동일한 layer의 stack으로 N = 6 개가 쌓여있으며

각 encoder/decoder는 내부에 각 2개의 sub-layer로 구성되어있다.

3.1 Scaled Dot-Product Attention

attention은 Scaled Dot-Product Attention을 사용하며, 기존 attention과 동일하게 query, keys, values 를 사용한다.

여기서 query, keys, values 는 1개 시점의 값이 아니라 전체 시점에 대한 벡터이다.

Q query와 K keys의 유사도를 내적 (Dot-Product)을 통해 표현한다 .

(

* 기존에 MLP로 표현한 것과 차이가 있다. - 이를 additive attention 이라고 한다.

additive attention은 1개의 은닉층을 가진 피드포워드 신경망을 사용해 query와 key 사이 호환성 함수를 구한다.

이 둘의 이론적 복잡도는 동일하기만 matrix 연산으로, 최적화하기에 용이해, Dot-product를 사용한다.

)

softmax를 사용해서 이를 확률로 바꾸어 준다 ( 0 ~ 1 ) - attention weight matrix

이후 이를 value와 곱하여 출력이 계산된다.

여기서 key의 dimension 인 dk 가 작으면 , scaled 를 제외하고 두 개 attention 방법의 성능이 유사한데

dk가 커지면 , dot product의 크기가 커져 softmax 함수의 기울기가 급격하게 작아지기 때문

-> 따라서 root dk로 스케일링 해준다.

3.2 Multi-head Attention

Multihead attention 수식, 2번의 Linear projection이 진행된다.

Transformer 구조에서는 single attention으로 dmodel 차원의 Q,K,V를 만들어 내는 대신,

h개의 multi-head Attention을 통해, linear projection을 통해 dq,dk,dv차원의 Q,K,V를 만들어내고 이를 concat한 다음 또 한번 linear projection하여 결과를 만들어낸다.

멀티헤드 어텐션을 사용하므로써, h개의 head가 서로 다른 representation subspace를 반영할 수 있는 장점이 있다.

싱글 헤드 어탠션은 representation을 한개의 subspace에 대해 표현하고 averaging하므로써 다양한 subspace에서의 정보가 noisy해진다.

또한, computational cost 관점에서도 차원을 dq dk dv로 줄여서 h개의 head가 처리하고 합쳐 d model로 복원하므로 single-head attention과 큰 차이가 없다.

3.3 Position-wise Feed-Forward Networks

Fig1을 참고하면 encoder와 decoder의 각 구조 안에서 Feed-Forward가 있는 것을 확인할 수 있다.

위의 수식과 같이 2개의 linear transformation과 ReLU로 이루어져있고,

해당 가중치는 layer 단위로는 공유하지 않지만, layer 안에서 position에 대해서는 공유한다. (CNN의 Kernel을 생각하면 편하다).

또한 각 posion에 대해 seqpartely and identically 즉 , 각 posion끼리의 정보는 섞이지 않는다.

차원은 512 -> 2028 -> 512의 구조를 보이며, cnn에서 1x1 kernel의 convolution 구조와 같음을 논문에서 언급하고 있다.

3.4 Positional Encoding

모델에서 CNN, RNN의 구조를 사용하지 않아 순서 정보가 포함되지 않아 , 각 token간 상대적인/절대적인 위치 정보를 넣어주기 위해 Positional Encoding을 사용한다.

주어진 input에서 positional encoding을 진행하고 input embedding에 더하는 방식으로 구현되고 , 이러한 positional encoding을 위해 학습을 통한 방식 / 고정된 방식 등 여러 방식이 존재하지만 논문에서는 아래와 같이 서로 다른 주파수를 가지는 sin/cos 함수를 사용한다.

ㅇ

위에서 pos는 position이고, i는 dimention이다.

요약하자면, 주기함수의 특징으로써 해당 pos가 늘어나도 encoding이 가능하고, 삼각함수의 성질으로써 선형ㅇ함수로써 표현이 가능하기에 해당 encoding 방식을 사용했다고 한다. ( 학습을 통한 방식에 대비해 성능은 유사하지만 seq 길이에 대해 더 자유로운 특성)

4. Why self-attention

왜 해당 모델에서 self-attention을 사용했는지 설명하는 부분이다.

먼저 self-attention에 대한 정의부터 다시 짚고 넘어가자.

Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.

모델에서는 이러한 self-attention을 attention layer라는 개념으로 일반화하여 사용하며 사용의 근거를

1. computational complexity 2. amount of computation (can parraleized) 3. path length between long-range dependencies로 설명하고 이를 기존의 rnn과 cnn과 비교한다.

self- attention layer는 아래와 같이 동일한 input seq에 대해 , seq안에서 어떤 token끼리 관계가 있는 방식으로 단일 input seq에 대해 Q,K,V를 계산한다.

위에서 생략한 3.2.3 Applications of Attention in our Model을 다시 불러오자면,

encoder, decoder 단에서는 위와 같은 self - attention이 사용되고, decoder의 경우에는 자기 자신을 포함하여 이전 position에 대해서만 attention 하도록 미래의 값에 대해서는 masking out하고, encoder는 이러한 과정이 없다.

encoder -> decoder attention layer에서는 self - attention이 아니라 queries들은 이전 decoder layer의 output을 , key와 value들은 이번 encoder의 output에서 나오고, input seq의 모든 position에 대해 attention을 진행한다. (전형적인 seq2seq의 attention과 같다고 생각하면 된다.)

review

지금까지 Attention all you need 를 읽고 리뷰해보았습니다. 비록 전체 논문을 읽고 분석한거는 아니지만 , vision 분야 transformer 를 이해하기 위해 배경지식으로써 읽어보았고 Vit, Swin 등의 논문을 리뷰하고 다시 돌아와 어떤 부분이 초기 자연어 처리를 위한 transformer에서 영감을 얻어 만들어졌는지 확인해 볼 계획입니다.

특히 , decoder의 masking out이나, position encoding의 작동 원리와 이유에 대해서는 직관으로써 이해하고 넘어갔으나 후에 다시 돌아와 자연어 처리에 대한 지식을 겸비하여 다시 읽어보려고 합니다.

'vision,deep learning' 카테고리의 다른 글

[논문리뷰] Image-to-Image Translation with Conditional Adversarial Networks (1)	2026.02.14
[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - ViT (0)	2026.01.12
[논문리뷰]attention is all you need-1 (1)	2025.12.29
[논문리뷰]Attention is all you need-0 (0)	2025.12.27

fffhyun

[논문리뷰]attention is all you need-2

'vision,deep learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바