๐ฟ Data
[๋ฅ๋ฌ๋, NLP] ๋ถํฌ ๊ฐ์ค, Word2Vec
๋ถํฌ ๊ฐ์ค(Distributed Representation) ํ์ ๊ธฐ๋ฐ์ด ์๋, ๋จ์ด์ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํํํ๋ ๋ถํฌ๊ธฐ๋ฐ ๋จ์ดํํ์ ๋ฐฐ๊ฒฝ์ด ๋๋ ๊ฐ์ค ๋น์ทํ ์์น์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ์ง๋๋ค.๋ ๊ฐ์ค์ ๋๋ค. Word2Vec ๋ง๊ทธ๋๋ก ๋จ์ด๋ฅผ ๋ฒกํฐํํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก ์ํซ์ธ์ฝ๋ฉ๊ณผ๋ ๋ค๋ฅธ ๋ถ์ฐ ํํ ๋ฐฉ๋ฒ์ ๋๋ค. ์ํซ์ธ์ฝ๋ฉ์ ๋จ์ด ๋ฒกํฐ์ ์ฐจ์์ด ๋จ์ด ์งํฉ์ ํฌ๊ธฐ๊ฐ ๋๋ฉฐ, ํด๋นํ์ง ์๋ ์ด์๋ ์ ๋ถ 0 ๊ฐ์ผ๋ก ํฌ์ํ๋ค๋ฉด, Word2Vec์ ๋น๊ต์ ์ ์ฐจ์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ถ์ฐํ์ฌ ํํํ๊ฒ ๋ฉ๋๋ค. ์ฃผ๋ณ ๋จ์ด๋ฅผ input์ผ๋ก ์ค์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ CBoW ๋ฐฉ๋ฒ๊ณผ ์ค์ฌ ๋จ์ด๋ฅผ input์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ๋ Skip-gram ๋ฐฉ๋ฒ์ด ์์ต๋๋ค.
[๋ฅ๋ฌ๋, NLP] ๋ถ์ฉ์ด, ์ถ์ถ, BoW/TF-IDF
๋ถ์ฉ์ด(Stop words) ์์ฃผ ๋ฑ์ฅํ์ง๋ง ์์ฐ์ด๋ฅผ ๋ถ์ํ๋ ๊ฒ์ ์์ด ํฐ ๋์์ด ๋์ง ์๋ ๋จ์ด ๊ฐ๊ณ ์๋ ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ์ต๋ํ ์ ์๋ฏธํ ๋จ์ด(ํ ํฐ)๋ฅผ ์ ๋ณํ๊ธฐ ์ํด ๋ถ์ฉ์ด๋ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ข์ต๋๋ค. I, he, her, ์กฐ์ฌ, ์ ๋ฏธ์ฌ ๊ฐ์ ๋จ์ด๋ค์ด ๋๋ถ๋ถ ๋ถ์ฉ์ด๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค. ์ด๊ฐ ์ถ์ถ(Stemming) ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ๋จ์ด๋ฅผ ์ค์ผ ์ ์๋ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค ํ๋ ๋จ์ด์์ ๊ฐ๋ ์ ์๋ฏธ๋ฅผ ๊ฐ๋ ์ด๊ฐ๋ง ์ถ์ถํ๋ ๋ฐฉ๋ฒ ex) analysis๊ณผ analytic -> ๋ ๋ค ๋ถ์์ ์๋ฏธ๋ฅผ ๊ฐ๊ณ ์์ผ๋ฏ๋ก analy๋ก ์ค์ผ ์ ์์ต๋๋ค. ์์์ ๊ฐ์ด ์ด๊ฐ๋ง ์ถ์ถํ๋ค๋ณด๋ ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์๊ธฐ๊ฒ ๋ฉ๋๋ค. ํ์ ์ด ์ถ์ถ(Lemmatization) ๋ง์ฐฌ๊ฐ์ง๋ก ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ๋จ์ด๋ฅผ ์ค์ผ ์ ์๋ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค..
[TIL]78. ์ํ ์ ๊ฒฝ๋ง(RNN)
ํค์๋ ์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Network ; RNN) LSTM GRU Attention ์ธ์ด ๋ชจ๋ธ(Language Model) ๋ฌธ์ฅ๊ณผ ๊ฐ์ ๋จ์ด ์ํ์ค์์ ๊ฐ ๋จ์ด(ํ ํฐ)์ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ชจ๋ธ Word2Vec๋ ๊ทธ ์์ ์ค ํ๋ ํต๊ณ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM) ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ ์ด์ ๋ฐฉ์์ผ๋ก ๋จ์ด์ ๋ฑ์ฅ ํ์๋ฅผ ๋ฐํ์ผ๋ก ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐ ํ๊ณ์ : ํ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฅ ์ ๊ณ์ฐํ๊ธฐ์ ํฌ์์ฑ(Sparsity) ๋ฌธ์ ์กด์ฌ ํฌ์์ฑ ๋ฌธ์ : ํ์ต ๋ฐ์ดํฐ์ ์๋ ๋จ์ด๋ ๋ง๋ค์ด๋ผ ์ ์๋ ๋ฌธ์ ์ ๊ฒฝ๋ง ์ธ์ด ๋ชจ๋ธ(Neural Language Model, NLM) ํ์ ๊ธฐ๋ฐ์ด ์๋ Word2Vec ํน์ fastText ๋ฑ์ ์ถ๋ ฅ๊ฐ์ธ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ฉ..
[TIL]77. ๋จ์ด ๋ถ์ฐ ํํ(Distributed Representation)
ํค์๋ ์๋ฒ ๋ฉ(Embedding) (vs ์ํซ์ธ์ฝ๋ฉ) Word2Vec CBoW, Skip-gram Ditributed Representation ๋ถํฌ ๊ฐ์ค : "๋น์ทํ ์๋ฏธ๋ฅผ ์ง๋ ๋จ์ด๋ค๋ผ๋ฆฌ ๋ชจ์ฌ์๋ค" == ์ ์ ์์ข ๋ถ์ฐ ํํ(Distributed Representation) : ๋ถํฌ ๊ฐ์ค์ ์ ์ ๋ก, ๋จ์ด๋ฅผ ๋ฒกํฐํ ์-ํซ ์ธ์ฝ๋ฉ(One-Hot Encoding) ๋ฒ์ฃผํ ๋ณ์๋ฅผ ๋ฒกํฐํํ๋ ๋ฐฉ๋ฒ ์ค ํ๋ ์ง๊ด์ ์ด๊ณ ์ฝ๊ฒ ์ดํดํ ์ ์์ ๋จ์ : ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ตฌํ ์ ์์(ํญ์ ๋ด์ ๊ฐ์ด 0, ๋จ์ด ์ฌ์ด ๊ด๊ณ ํ์ ๋ถ๊ฐ), ์ฐจ์์ ์ ์ฃผ ์๋ฒ ๋ฉ(Embedding) ๋จ์ด๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ(์ฐจ์์ด ์ผ์ ํ ๋ฒกํฐ)๋ก ํํ 0, 1๋ก๋ง ์ด๋ฃจ์ด์ง ์ํซ์ธ์ฝ๋ฉ๊ณผ๋ ๋ค๋ฅด๊ฒ ์ฐ์์ ์ธ ๊ฐ์ ๊ฐ์ง ๋ฒกํฐ๋ก ํํ ์๋ฒ ๋ฉ ์์ฒด์ ๊ฐ๋ ..
[TIL]76. NLP(Natural Language Processing)
ํค์๋ ์์ฐ์ด ์ฒ๋ฆฌ ํ ์คํธ ์ ์ฒ๋ฆฌ ๋ฑ์ฅ ํ์(๋น๋์) ๊ธฐ๋ฐ ๋จ์ด ํํ(๋ฒกํฐํ) ์์ฐ์ด ์ฒ๋ฆฌ ์์ฐ์ด : ์ฌ๋๋ค์ด ์ผ์์ ์ผ๋ก ์ฐ๋ ์ธ์ด, ์์ฐ์ ์ผ๋ก ๋ฐ์๋ ์ธ์ด ์ธ๊ณต์ด : ์ธ๊ณต์ ์ผ๋ก ๋ง๋ค์ด์ง ์ธ์ด ์์ฐ์ด ์ฒ๋ฆฌ๋ก ํ ์ ์๋ ์ผ๋ค ์์ฐ์ด ์ดํด(Natural Language Understanding ; NLU) ๋ถ๋ฅ : ๋ด์ค ๊ธฐ์ฌ ๋ถ๋ฅ, ๊ฐ์ฑ ๋ถ์ ์์ฐ์ด ์ถ๋ก : ์ ์ ์ ๋ํ ๊ฐ์ค์ ์ฐธ/๊ฑฐ์ง ํ๋ณ ๊ธฐ๊ณ ๋ ํด : ํน์ ์ง๋ฌธ์ ๋ํ ์ง๋ฌธ์ ๋ต์ ํ๋ ๊ฒ(๋น๋ฌธํ ์ง๋ฌธ ํ๋ฏ) ํ์ฌ ํ๊น , ๊ฐ์ฒด๋ช ์ธ์ ๋ฑ ์์ฐ์ด ์์ฑ(Natural Language Generation ; NLG) ํ ์คํธ ์์ฑ : ex) ๋ด์ค ๊ธฐ์ฌ ์์ฑ, ๊ฐ์ฌ ์์ฑ ๋ฑ ์ดํด์ ์์ฑ ๋์(NLU/NLG) ๊ธฐ๊ณ ๋ฒ์ญ ์์ฝ : ์ถ์ถ ์์ฝ(๋ฌธ์ ๋ด์์ ํด๋น ๋ฌธ์..