Positional Encoding
- RNN๊ณผ ๋ฌ๋ฆฌ Transformer๋ ๋ชจ๋ ํ ํฐ์ด ํ๋ฒ์ ์
๋ ฅ๋๊ธฐ ๋๋ฌธ์ recursive๋ฅผ ํตํ ๋จ์ด ๊ฐ ์์น, ์์ ์ ๋ณด๋ฅผ ๋ด์ ์ ์์ต๋๋ค.
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ์ ์ด์ input ์ ํ ํฐ์ ์์น์ ๋ํ ์ ๋ณด๋ฅผ ๋ง๋ค์ด ํ ํฐ์ ํฌํจ์ํค๋ ์์
์ ํ๊ฒ ๋๋๋ฐ ์ด ๊ณผ์ ์ด
Positional Encoding
์
๋๋ค.
Self-Attention
- Attention : ๋์ฝ๋์์ ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋งค ์์ (time step)๋ง๋ค, ์ธ์ฝ๋์์์ ์ ์ฒด ์
๋ ฅ ๋ฌธ์ฅ์ ์ฐธ๊ณ ํ๋ ๋ฐฉ๋ฒ. ์ด ๋, ์ ์ฒด ์
๋ ฅ๋๋ ๋ฌธ์ฅ์ ํ ํฐ์ ๋์ผํ ๋น์ค์ผ๋ก ์ฐธ๊ณ ํ๋ ๊ฒ์ด ์๋, ํด๋น ์์ ์ ์์ธกํ ๋จ์ด์ ์ฐ๊ด์ฑ์ด ๋์ ์
๋ ฅ ํ ํฐ์ ๋ ๋น์ค์๊ฒ ์ง์ค(attention)ํด์ ๋ณด๋ ๋ฐฉ๋ฒ์
๋๋ค.
- ๋ฌธ์ฅ ๋ด์์์ ํ ํฐ์ ๊ด๊ณ๋ฅผ ํ์ธํ๊ธฐ ์ํด ์๊ธฐ ์์ ์ ๋ํ attention์ ํ๋ ๊ณผ์ ์
๋๋ค.
- q = k = v ๋ก
์ฟผ๋ฆฌ
, ํค
, ๋ฒจ๋ฅ
์ ์ถ์ฒ๊ฐ ๋์ผํฉ๋๋ค.
Masked Self-Attention
- Transformer๋ ๊ฐ ์ํ์ค์ ํ ํฐ์ ํ๋ฒ์ ์
๋ ฅ๋ฐ์ต๋๋ค. ์ฆ, ๋์ฝ๋์์๋ output์ ๋ํ ๊ฐ ์ํ์ค์ ํ ํฐ๋ค์ ํ๋ฒ์ ์
๋ ฅ๋ฐ๊ฒ ๋ฉ๋๋ค. ์ด ๋, Transformer์๋
์์ฐจ์
์ด๋ผ๋ ๊ฐ๋
์ด ์๊ธฐ ๋๋ฌธ์, t ์์ ์์ ์์ธกํ ๊ฐ๊ณผ ๊ฐ์ ์์ ์ดํ์ ๊ฐ์ ๋ํด masking(์์ฃผ ์์ ๊ฐ์ผ๋ก ๋ณด๋ด์ 0์ผ๋ก ๋ง๋๋ ์์
)ํ๊ฒ ๋ฉ๋๋ค. ์ด๋, ๋ง์น ๋ฏธ๋์ ๊ฐ์ด ๋ฐ์๋๋ ๋ฐ์ดํฐ ๋์ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํจ์
๋๋ค. ๋์ฝ๋์ Self-Attention ๊ณผ์ ์์๋ง ์งํ๋ฉ๋๋ค.
์ฐธ๊ณ
[๋ฅ๋ฌ๋, CV] CNN ๊ธฐ๋ณธ, ์ ์ด ํ์ต ๊ฐ๋
(0) |
2022.03.10 |
[๋ฅ๋ฌ๋, NLP] ๋ค์ํ ํ
์คํธ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ (0) |
2022.03.09 |
[๋ฅ๋ฌ๋, NLP] RNN, LSTM, GRU (0) |
2022.03.06 |
[๋ฅ๋ฌ๋, NLP] ๋ถํฌ ๊ฐ์ค, Word2Vec (0) |
2022.03.06 |
[๋ฅ๋ฌ๋, NLP] ๋ถ์ฉ์ด, ์ถ์ถ, BoW/TF-IDF (0) |
2022.03.06 |