๐ฟ Data/์ด๋ชจ์ ๋ชจ
[๋ฅ๋ฌ๋, NLP] Transformer(Positional encoding, Attention)
Jayden1116
2022. 3. 7. 21:34
Positional Encoding
- RNN๊ณผ ๋ฌ๋ฆฌ Transformer๋ ๋ชจ๋ ํ ํฐ์ด ํ๋ฒ์ ์ ๋ ฅ๋๊ธฐ ๋๋ฌธ์ recursive๋ฅผ ํตํ ๋จ์ด ๊ฐ ์์น, ์์ ์ ๋ณด๋ฅผ ๋ด์ ์ ์์ต๋๋ค.
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ์ ์ด์ input ์ ํ ํฐ์ ์์น์ ๋ํ ์ ๋ณด๋ฅผ ๋ง๋ค์ด ํ ํฐ์ ํฌํจ์ํค๋ ์์
์ ํ๊ฒ ๋๋๋ฐ ์ด ๊ณผ์ ์ด
Positional Encoding
์ ๋๋ค.
Self-Attention
- Attention : ๋์ฝ๋์์ ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋งค ์์ (time step)๋ง๋ค, ์ธ์ฝ๋์์์ ์ ์ฒด ์ ๋ ฅ ๋ฌธ์ฅ์ ์ฐธ๊ณ ํ๋ ๋ฐฉ๋ฒ. ์ด ๋, ์ ์ฒด ์ ๋ ฅ๋๋ ๋ฌธ์ฅ์ ํ ํฐ์ ๋์ผํ ๋น์ค์ผ๋ก ์ฐธ๊ณ ํ๋ ๊ฒ์ด ์๋, ํด๋น ์์ ์ ์์ธกํ ๋จ์ด์ ์ฐ๊ด์ฑ์ด ๋์ ์ ๋ ฅ ํ ํฐ์ ๋ ๋น์ค์๊ฒ ์ง์ค(attention)ํด์ ๋ณด๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ๋ฌธ์ฅ ๋ด์์์ ํ ํฐ์ ๊ด๊ณ๋ฅผ ํ์ธํ๊ธฐ ์ํด ์๊ธฐ ์์ ์ ๋ํ attention์ ํ๋ ๊ณผ์ ์ ๋๋ค.
- q = k = v ๋ก
์ฟผ๋ฆฌ
,ํค
,๋ฒจ๋ฅ
์ ์ถ์ฒ๊ฐ ๋์ผํฉ๋๋ค.
Masked Self-Attention
- Transformer๋ ๊ฐ ์ํ์ค์ ํ ํฐ์ ํ๋ฒ์ ์
๋ ฅ๋ฐ์ต๋๋ค. ์ฆ, ๋์ฝ๋์์๋ output์ ๋ํ ๊ฐ ์ํ์ค์ ํ ํฐ๋ค์ ํ๋ฒ์ ์
๋ ฅ๋ฐ๊ฒ ๋ฉ๋๋ค. ์ด ๋, Transformer์๋
์์ฐจ์
์ด๋ผ๋ ๊ฐ๋ ์ด ์๊ธฐ ๋๋ฌธ์, t ์์ ์์ ์์ธกํ ๊ฐ๊ณผ ๊ฐ์ ์์ ์ดํ์ ๊ฐ์ ๋ํด masking(์์ฃผ ์์ ๊ฐ์ผ๋ก ๋ณด๋ด์ 0์ผ๋ก ๋ง๋๋ ์์ )ํ๊ฒ ๋ฉ๋๋ค. ์ด๋, ๋ง์น ๋ฏธ๋์ ๊ฐ์ด ๋ฐ์๋๋ ๋ฐ์ดํฐ ๋์ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํจ์ ๋๋ค. ๋์ฝ๋์ Self-Attention ๊ณผ์ ์์๋ง ์งํ๋ฉ๋๋ค.