ํค์๋
- ์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Network ; RNN)
- LSTM
- GRU
- Attention
์ธ์ด ๋ชจ๋ธ(Language Model)
- ๋ฌธ์ฅ๊ณผ ๊ฐ์ ๋จ์ด ์ํ์ค์์ ๊ฐ ๋จ์ด(ํ ํฐ)์ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ชจ๋ธ
- Word2Vec๋ ๊ทธ ์์ ์ค ํ๋
ํต๊ณ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM)
- ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ ์ด์ ๋ฐฉ์์ผ๋ก ๋จ์ด์ ๋ฑ์ฅ ํ์๋ฅผ ๋ฐํ์ผ๋ก ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐ
- ํ๊ณ์ : ํ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฅ ์ ๊ณ์ฐํ๊ธฐ์ ํฌ์์ฑ(Sparsity) ๋ฌธ์ ์กด์ฌ
- ํฌ์์ฑ ๋ฌธ์ : ํ์ต ๋ฐ์ดํฐ์ ์๋ ๋จ์ด๋ ๋ง๋ค์ด๋ผ ์ ์๋ ๋ฌธ์
์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ(Neural Language Model, NLM)
- ํ์ ๊ธฐ๋ฐ์ด ์๋
Word2Vec
ํน์fastText
๋ฑ์ ์ถ๋ ฅ๊ฐ์ธ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉ - ๋ง๋ญ์น์ ๋ฑ์ฅํ์ง ์๋๋ผ๋ ์๋ฏธ์ , ๋ฌธ๋ฒ์ ์ผ๋ก ์ ์ฌํ ๋จ์ด๋ผ๋ฉด ๋ง๋ค์ด๋ผ ์ ์์
์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Network ; RNN)
- ์ฐ์ํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ฑ์ฅ
- ์ฐ์ํ ๋ฐ์ดํฐ : ์์์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ ๋ฐ์ดํฐ ex) ์์ฐ์ด, ์๊ณ์ด ๋ฐ์ดํฐ ๋ฑ
RNN์ ๊ตฌ์กฐ
- ์ ๋ ฅ ๋ฒกํฐ๊ฐ ์๋์ธต์ ๋ค์ด๊ฐ๋ ๋ถ๋ถ
- ์๋์ธต์ผ๋ก๋ถํฐ ์ถ๋ ฅ ๋ฒกํฐ๊ฐ ์์ฑ๋๋ ๋ถ๋ถ
- ์๋์ธต์์ ๋์ ๋ค์ ์๋์ธต์ผ๋ก ์ ๋ ฅ๋๋ ๋ถ๋ถ
- 3๋ฒ ๊ณผ์ ์ด ์ํ ์ ๊ฒฝ๋ง์๋ง ์๋ ๊ณผ์ -> ์ถ๋ ฅ ๋ฒกํฐ๊ฐ ๋ค์ ์ ๋ ฅ๋๋ ํน์ฑ(์ํ)
$h_t = \tanh(h_{t-1}W_h + x_tW_x + b)$
$h_t$๋ ํด๋น ์์ ๊น์ง ์ ๋ ฅ๋ ๋ฒกํฐ $x_1$์์ $x_t$๊น์ง์ ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ฐ๊ณ ์์
์ฆ, ์ฐ์ํ ๋ฐ์ดํฐ๊ฐ ์์๋๋ก ์ ๋ ฅ๋ ๋ ์์ ์ ๋ณด๋ฅผ ๋ฐ์
์ฅ์
๋น๊ต์ ๋ชจ๋ธ์ด ๊ฐ๋จ, ์ด๋ก ์ ๋ชจ๋ ๊ธธ์ด์ sequential ๋ฐ์ดํฐ๋ผ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅ๋จ์
๋ฒกํฐ๊ฐ ์์ฐจ์ ์ผ๋ก ์ ๋ ฅ๋๋ค๋ ์ -> ๋ณ๋ ฌํ ๋ถ๊ฐ๋ฅ(์ฆ, GPU ์ฐ์ฐ์ ์ฅ์ ์ธ ๋ณ๋ ฌ์ฐ์ฐ์ ์ด์ฉํ์ง ๋ชปํจ)
๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ ํญ๋ฐ ๋ฌธ์ -> ์์ฐจ์ ์ผ๋ก ๋ค์ด์ค๋๋งํผ, ์ญ์ ํ ์งํ ์ ์ฒ์ ๋ค์ด์จ ์ํ์ค ์์ชฝ ๋ฒกํฐ์๋ ์ ๋ฌ์ด ๊ฑฐ์ ์๋จ
LSTM(Long Short Term Memory ; ์ฅ๋จ๊ธฐ๊ธฐ์ต๋ง)
- RNN์ ๊ธฐ์ธ๊ธฐ ์์ค์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๋ฐฉ๋ฒ
- ๊ธฐ์ธ๊ธฐ ์ ๋ณด์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๊ธฐ ์ํ Gate๋ฅผ ์ถ๊ฐํ ๋ชจ๋ธ
- Vanilla RNN์ ๊ฑฐ์ ์ฌ์ฉ ์ํ ์ ๋๋ก, LSTM์ด ๋ํ์ ์ธ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ
LSTM ๊ตฌ์กฐ
- Forget Gate : ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ์ ์งํ ์ง
- Input Gate : ์๋ก ์ ๋ ฅ๋ ์ ๋ณด๋ ์ผ๋ง๋ ํ์ฉํ ์ง
- Output Gate : ์ ๋๊ฐ์ ์ ๋ณด๋ฅผ ๊ณ์ฐํ์ฌ ์ผ๋ง๋ ์ถ๋ ฅํ ์ง
- ๊ธฐ์กด RNN์ hidden-state๊ฐ ์๋, ํ์ฑํ ํจ์๋ฅผ ์ง์ ๊ฑฐ์ง์น์ง ์๋
cell-state
์ถ๊ฐ - ์ญ์ ํ ๊ณผ์ ์ ํ์ฑํ ํจ์๊ฐ ์์ด, ๋น๊ต์ ์ ๋ณด ์์ค์ด ์์
- ์ฆ, ํ๋ฐ ์ํ์ค ์ ๋ณด์ ๋น์ค์ ๊ฒฐ์ ๋ฐ ๋์์ ์ ๋ฐ ์ํ์ค ์ ๋ณด๋ฅผ ๋น๊ต์ ๋ณด์กด
GRU(Gated Recurrent Unit)
- LSTM์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ํํ ๋ชจ๋ธ
- cell-state๋ฅผ ์์ ๊ณ ๋ค์ hidden-state ํ๋๋ก ํต์ผ
- gate $z_t$๋ก Forget ๋ฐ Input gate๋ฅผ ๋์์ ์ ์ด
- $z_t$๊ฐ 1์ผ ๋, forget gate๊ฐ ์ด๋ฆฌ๊ณ , input gate๊ฐ ๋ซํ๋ ํจ๊ณผ(์ค์์น ๊ฐ์ ์ญํ )
- output gate ๋ํ ์์ด์ง : ๋์ $h_{t-1}$ ์ ์ถ๋ ฅ์ ๊ด์ฌํ๋ $r_t$ gate ์ถ๊ฐ
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL] 80. Transformer (0) | 2022.03.09 |
---|---|
[TIL] 79. ์ธ์ฝ๋-๋์ฝ๋, Attention (0) | 2022.03.08 |
[TIL]77. ๋จ์ด ๋ถ์ฐ ํํ(Distributed Representation) (0) | 2022.03.03 |
[TIL]76. NLP(Natural Language Processing) (0) | 2022.03.02 |
[TIL]75. ์ ๊ฒฝ๋ง ๊ฐ๋ ์ ๋ฆฌ (0) | 2022.03.01 |