[논문리뷰]attention is all you need-1

fffhyun 2025. 12. 29. 18:47

2025. 12. 29. 18:47

지난번에 seq2seq에 대한 기본 개념, attention에 대한 기본 개념을 이야기해 본것이 더불어 attention is all you need라고 하는

transformer라는 모델 구조에 대해 제안한 논문을 리뷰하고, 그 안의 self - attention 등의 개념에 대해 알아보고자 한다.

자연어 처리에 대한 직접적인 지식이 필요한 것이 아니기에,

해당 논문에서 필요한 개념만 발췌독하였고 핵심에 해당되는 부분은 영여원문을 전부 첨부하였다.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017).
Attention is all you need. arXiv preprint arXiv:1706.03762.

1. Introduction

RNN , LSTM , GRU를 활용한 , 기계 번역 언어 모델링과 같은 Sequence Modeling & Transduction 문제 해결은 SOTA의 성능을 만들어 내었고, 이후 recurrnet language model과 encoder-decoder 아키텍쳐에서의 한계점을 해결하기 위한 많은 연구들이 진행되었다.

Sequence Modeling : input과 output의 순서적인 특징을 학습하여 다음의 seq 토큰을 맞추는 task

Transduction : input과 output의 길이가 다른 seq라 하여도 변환하는 task ( 번역 )

저자가 기존의 RNN 구조의 성능을 인정함과 동시에 기존 구조의 한계점을 극복하기 위한 연구가 진행됨을 서술하는 부분이다.

recurrnet language model과 encoder-decoder 아키텍쳐와 같은 개념이 후에 등장할 것을 짐작할 수 있다.

Recurrent models (RNN) 계열은 본질적으로 입력 시퀀스의 토큰에 따라 시간축을 분해하여 , 계산을 수행한다.

전 단계의 hidden state( h t-1 )와 해당 위치에서의 input 토큰을 가지고 해당 시점의 hiddent state t를 계산할 수 있다.

이러한 순차적 특성 sequential nature은 학습 내부에서의 병렬화를 불가능하게 만든다. (GPU를 활용한 연산이 어렵다)

또한 이는 시퀀스 길이가 길어질 수록 문제가 커지며, 메모리 한계로 인하여 batch 병렬 처리도 제한되기 때문이다.

이를 해결하기 위한 다양한 방법이 논의되었지만 해결하지 못하였다.

RNN 구조의 본질적인 문제 "순차적 특성"으로 인한 병렬 처리 불가, 메모리 제약을 문제의 본질로 짚고 있는 것이다.

Attention 매커니즘은 이미 다양한 Transduction, sequence modeling에서 핵심 구성요소가 되었다. 또한 Attention은

가까운 것만 잘 기억하는 RNN의 특성을 극복하여, 거리와 관계없이 (seq상의 거리) 요소간의 관계성 (token간의 의존성)을 모델링하게 해주었다. 하지만, 해당 attention은 여전히 recurrent network와 함께 사용되고 있다.

attention의 기능 ( seq 상 거리와 관계없이 연관된 요소간의 관계성을 기술 ) 과 유용함을 언급함과 동시에 이가 여전히 recurrent network와 함께 사용되는 문제점을 지적하고 있다.

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output. The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality after being trained for as little as twelve hours on eight P100 GPUs.

본 연구에서는 recurrence를 제거하고, 대신에 전체적으로 attention 매커니즘을 활용하여 입력과 출력 사이 global dependencies를 기술하는 Transformer를 제안한다. Transformer는 more parallelization , 병렬화를 통해 짧은 시간의 학습만으로도 SOTA의 성능을 달성하게 되었다.

** introtuction의 중요한 부분 ! transformer 구조의 제안

기존 문제가 되었던 Recurrent models들의 순차성을 해결하기 위해 attention을 단순 RNN의 보조 도구에서 전체 모델의 백본으로 사용함으로써 해당 문제를 해결함과 동시에 병렬성을 개선

2. Background

RNN의 순차성을 개선하기 위해 CNN 구조에서의 접근도 있었다. (CNN 구조는 병렬처리에 용이함)

그러나, 기존 CNN애서 멀리 떨어진 두 위치끼리 상호작용하려면 여러 레이어를 거쳐야하는 문제가 있었다. ( RNN과 같은 거리 의존성 존재) . 결과적으로 CNN을 활용한 접근은 장거리 의존성 학습에 있어서의 어려움이 있었다.

.. 이에 관련한 transformer의 해결방법 간략하게 소개

Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence

****

self-attention은 한개 sequence상의 여러 다른 위치간의 관계를 서술하는 방식으로 seq를 표현하는 attention 매커니즘이다. 해당 방법은 다양한 분야에 있어서 이미 성공적인 성능을 보여주는데 기여하였다.

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence-aligned RNNs or convolution.

Transforemer는 RNN이나 CNN에 의존하지 않은 체 , self-attention에만 의존한 최초의 transduction 모델이다.

In the Transformer this is reduced to a constant number of operations, albeit at the cost of reduced effective resolution due to averaging attention-weighted positions, an effect we counteract with Multi-Head Attention as described in section 3.2.

트랜스포머의 attention weight를 활용한 계산때문에 정보의 소실이 일어나지만, 3.2에서 나오는 Multi-Head Attention으로 극복한다.

해당 논문의 method에서 사용할 주요 요소들을 저자가 간략하게 소개한다.

첫번째로 거리 의존성을 해결하는 self - attention.

두번째로 attention weight로 인한 가중합계산으로 해상도가 저하되는 것을 multi - head attention을 통해 극복한다는 것이다.

( attention 된 부분이 표시된 weight mat를 정보 행렬에 곱하면 정보가 섞이는 문제가 생김 -> noise 발생 , 이를 multi - head 다양한 관점에서의 attention을 동시에 행함으로써 극복한다는 것이다 . )

RNN에서의 거리 의존성, 병렬처리의 어려움을 단지 self-attention 구조만을 쓰는 것으로 해결했다는 것을 논문 제목 그대로 표현하였다.

Attention is all you need !

'vision,deep learning' 카테고리의 다른 글

[논문리뷰] Image-to-Image Translation with Conditional Adversarial Networks (1)	2026.02.14
[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - ViT (0)	2026.01.12
[논문리뷰]attention is all you need-2 (0)	2026.01.05
[논문리뷰]Attention is all you need-0 (0)	2025.12.27

fffhyun