💿 Data/이모저모

[딥러닝, NLP] Transformer(Positional encoding, Attention)

Jayden1116 2022. 3. 7. 21:34

Positional Encoding

RNN과 달리 Transformer는 모든 토큰이 한번에 입력되기 때문에 recursive를 통한 단어 간 위치, 순서 정보를 담을 수 없습니다.
그렇기 때문에, 애초에 input 시 토큰의 위치에 대한 정보를 만들어 토큰에 포함시키는 작업을 하게 되는데 이 과정이 Positional Encoding 입니다.

Self-Attention

Attention : 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 참고하는 방법. 이 때, 전체 입력되는 문장의 토큰을 동일한 비중으로 참고하는 것이 아닌, 해당 시점의 예측할 단어와 연관성이 높은 입력 토큰을 더 비중있게 집중(attention)해서 보는 방법입니다.
문장 내에서의 토큰의 관계를 확인하기 위해 자기 자신에 대한 attention을 하는 과정입니다.
q = k = v 로 쿼리, 키, 벨류의 출처가 동일합니다.

Masked Self-Attention

Transformer는 각 시퀀스의 토큰을 한번에 입력받습니다. 즉, 디코더에서도 output에 대한 각 시퀀스의 토큰들을 한번에 입력받게 됩니다. 이 때, Transformer에는 순차적이라는 개념이 없기 때문에, t 시점에서 예측할 값과 같은 자신 이후의 값에 대해 masking(아주 작은 값으로 보내서 0으로 만드는 작업)하게 됩니다. 이는, 마치 미래의 값이 반영되는 데이터 누수 현상을 방지하기 위함입니다. 디코더의 Self-Attention 과정에서만 진행됩니다.