Transformer
๊ธฐ๊ณ ๋ฒ์ญ์ ์ํ ์๋ก์ด ๋ชจ๋ธ
Attention ๋ฉ์ปค๋์ฆ์ ๊ทน๋ํํ ๋ชจ๋ธ
๊ตฌ์กฐ์ ๋จ์ด๊ฐ ์์ฐจ์ ์ผ๋ก ๋ค์ด์ค๋ RNN ๋ชจ๋ธ์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๋ชจ๋ธ
๋ชจ๋ ํ ํฐ(๋จ์ด)๋ฅผ ๋์์ ์
๋ ฅ๋ฐ์ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๊ธฐ๋๋ฌธ์ GPU ์ฐ์ฐ์ ์ต์ ํ(์๊ฐ์ด ๋น ๋ฆ)
2017๋
๊ตฌ๊ธ์ด ๋ฐํํ "Attention is all you need"์์ ๋ฑ์ฅํ ๋ชจ๋ธ
- ๊ธฐ์กด์ seq2seq์ ๊ตฌ์กฐ์ธ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด๋ฉด์ RNN์ ์ฌ์ฉํ์ง ์๊ณ Attention๋ง์ผ๋ก ๊ตฌํํ ๋ชจ๋ธ
Positional Encoding(์์น ์ธ์ฝ๋ฉ)
RNN๊ณผ ๋ค๋ฅด๊ฒ ์์ฐจ์ ์ผ๋ก ํ ํฐ์ ์ ๋ ฅ๋ฐ์ง ์๊ธฐ ๋๋ฌธ์, ํ ํฐ์ ์์น ์ ๋ณด์ ๋ํ ๋ฒกํฐ๋ฅผ ๋ฐ๋ก ์ ๊ณตํด์ฃผ๋ ๋จ๊ณ์ ๋๋ค.
Self-Attention(์ ํ-์ดํ ์ ) - ์ธ์ฝ๋์ ์์น
The animal didn't cross the street because it was too tired
์์ ์์์์ ์ปดํจํฐ๋ it๊ณผ ๊ฐ์ ์ง์๋๋ช
์ฌ๊ฐ ๋ฌธ์ฅ ๋ด์์ ์ด๋ค ๋์์ ๊ฐ๋ฆฌํค๋์ง ์ ์ ์์ต๋๋ค.
๋ฐ๋ผ์ ๋ฌธ์ฅ ์์ฒด์ ๋ฌธ๋งฅ์ ํ๋จํ๊ธฐ ์ํด ๋ณธ์ธ๊ณผ ๋ณธ์ธ ์ฌ์ด์ Attention ๋ฉ์ปค๋์ฆ์ ์ํํ๋ ๋จ๊ณ์
๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ์ฟผ๋ฆฌ, ํค, ๋ฒจ๋ฅ๊ฐ ์กด์ฌํฉ๋๋ค.
- ์ฟผ๋ฆฌ : ๋ถ์ํ๊ณ ์ ํ๋ ๋จ์ด์ ๋ํ ๊ฐ์ค์น ๋ฒกํฐ
- ํค : ๋ฌธ์ฅ ๋ด ๋จ์ด๊ฐ ์ฟผ๋ฆฌ์ ํด๋นํ๋ ๋จ์ด์ ์ผ๋ง๋ ์ฐ๊ด์๋์ง๋ฅผ ๋น๊ตํ๊ธฐ ์ํ ๊ฐ์ค์น ๋ฒกํฐ
- ๋ฒจ๋ฅ : ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ด๋ ค์ฃผ๊ธฐ ์ํ ๊ฐ์ค์น ๋ฒกํฐ
self-attention์์๋ ์ฟผ๋ฆฌ, ํค, ๋ฒจ๋ฅ์ ์ถ์ฒ๊ฐ ๋์ผํฉ๋๋ค.(๋น์ฐํ ๋ณธ์ธ๋ผ๋ฆฌ attention์ ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ)
Multi-Head Attention
์ฃผ์ด์ง ํค๋ ์์ ๋ฐ๋ผ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์์ ๋๋์ด์ฃผ๊ณ ๋๋ ์ค ํค๋ ์๋งํผ ๋ณ๋ ฌ์ ์ผ๋ก attention ๋ฉ์ปค๋์ฆ์ ์ ์ฉ ํ ๋ค์ concat์ผ๋ก ์ด์ด๋ถ์ฌ์ฃผ๋ ๋ณ๋ ฌํ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ๋๋ค.
Feed Forward Neural Netword(FFNN)
1๊ฐ์ ์๋์ธต(ReLU)์ 1๊ฐ์ ์ถ๋ ฅ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๋จ์ํ 2์ธต ์ ๊ฒฝ๋ง
Masked Self-Attention - ๋์ฝ๋์ ์์น
Masked ๋ถ๋ถ๋ง ์๋ฏธ๋ฅผ ํ์
ํ์๋ฉด, ์ธ์ด๋ชจ๋ธ์์ ๋์ฝ๋๊ฐ ๋จ์ด๋ฅผ ์์ฑํ ๋๋ ์ผ์ชฝ ๋จ์ด(์ด์ ๋จ์ด)๋ฅผ ๋ณด๊ณ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ฉด์ ์งํ๋ฉ๋๋ค. ํ์ง๋ง ํธ๋์คํฌ๋จธ์์๋ RNN๊ณผ ๋ฌ๋ฆฌ ๋จ์ด๊ฐ ํ๋ฒ์ ์
๋ ฅ๋๊ธฐ ๋๋ฌธ์ ์ด๋ป๊ฒ ๋ณด๋ฉด ๋ค์ ๋จ์ด๊ฐ ๋ฏธ๋ฆฌ ์ฃผ์ด์ง๊ฒ ๋๋ ๋ฐ์ดํฐ ๋์ ํ์์ด ์ผ์ด๋ฉ๋๋ค.(๋ชจ๋ ํ ํฐ์ ์ฃผ๋ฉด์ ํ ํฐ์ ์์ธกํ๋ผ๋ ๊ฒ ๋ง์ด ์๋จ)
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์์ธกํด์ผํ๋ ํ ํฐ์ ๋ค์ ํ ํฐ๊ฐ๋ค์ ์ ๋ถ ๊ฐ๋ ค์ฃผ๋ ์์
์ ํ๊ฒ ๋๋๋ฐ, ์ด๋ฅผ ๋ง์คํน์ด๋ผ๊ณ ํฉ๋๋ค.
attention ๊ณผ์ ์ค attention score๋ฅผ ๋ธ ๋ถ๋ถ์์(์ํํธ๋งฅ์ค์ ๋ค์ด๊ฐ๊ธฐ ์ ) ๋ง์คํนํด์ผํ๋ ์ค์ฝ์ด๋ฅผ -(๋ฌดํ๋)
ํด์ค์ผ๋ก์จ ์ํํธ๋งฅ์ค ํ 0 ๊ฐ์ด ๋์ค๊ฒ ์ฒ๋ฆฌํด์ค๋๋ค.
Encoder-Decoder Attention - ๋์ฝ๋์ ์์น
์ธ์ฝ๋์ self attention๊ณผ ์ ์ฌํ์ง๋ง q, k, v์ ์ถ์ฒ๊ฐ ๋ค๋ฆ
๋๋ค.
์ฟผ๋ฆฌ๋ ๋์ฝ๋์์ Masked Self-Attention์ผ๋ก๋ถํฐ ์ถ๋ ฅ๋ ๋ฒกํฐ๋ฅผ ์ฟผ๋ฆฌ๋ก ํ๊ณ ํค์ ๋ฒจ๋ฅ๋ ๋ง์ง๋ง ์ธ์ฝ๋ ๋ธ๋ก์์ ์ฌ์ฉํ๋ ๊ฐ์ ๊ฐ์ ธ์์ ์ฌ์ฉํฉ๋๋ค.
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL] 82. ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN) ๋ฐ ์ ์ด ํ์ต(Transfer Learning) (0) | 2022.03.10 |
---|---|
[TIL] 81. Section4 Sprint2 (0) | 2022.03.09 |
[TIL] 79. ์ธ์ฝ๋-๋์ฝ๋, Attention (0) | 2022.03.08 |
[TIL]78. ์ํ ์ ๊ฒฝ๋ง(RNN) (0) | 2022.03.04 |
[TIL]77. ๋จ์ด ๋ถ์ฐ ํํ(Distributed Representation) (0) | 2022.03.03 |