๐Ÿ’ฟ Data

    [๋”ฅ๋Ÿฌ๋‹, NLP] ๋ถ„ํฌ ๊ฐ€์„ค, Word2Vec

    ๋ถ„ํฌ ๊ฐ€์„ค(Distributed Representation) ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์ด ์•„๋‹Œ, ๋‹จ์–ด์˜ ๋ถ„ํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ถ„ํฌ๊ธฐ๋ฐ˜ ๋‹จ์–ดํ‘œํ˜„์˜ ๋ฐฐ๊ฒฝ์ด ๋˜๋Š” ๊ฐ€์„ค ๋น„์Šทํ•œ ์œ„์น˜์— ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋“ค์€ ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ๋‹ค.๋Š” ๊ฐ€์„ค์ž…๋‹ˆ๋‹ค. Word2Vec ๋ง๊ทธ๋Œ€๋กœ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ ์›ํ•ซ์ธ์ฝ”๋”ฉ๊ณผ๋Š” ๋‹ค๋ฅธ ๋ถ„์‚ฐ ํ‘œํ˜„ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์›ํ•ซ์ธ์ฝ”๋”ฉ์€ ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ์ฐจ์›์ด ๋‹จ์–ด ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๊ฐ€ ๋˜๋ฉฐ, ํ•ด๋‹นํ•˜์ง€ ์•Š๋Š” ์—ด์—๋Š” ์ „๋ถ€ 0 ๊ฐ’์œผ๋กœ ํฌ์†Œํ•˜๋‹ค๋ฉด, Word2Vec์€ ๋น„๊ต์  ์ €์ฐจ์›์— ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ถ„์‚ฐํ•˜์—ฌ ํ‘œํ˜„ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ input์œผ๋กœ ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” CBoW ๋ฐฉ๋ฒ•๊ณผ ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ input์œผ๋กœ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” Skip-gram ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

    [๋”ฅ๋Ÿฌ๋‹, NLP] ๋ถˆ์šฉ์–ด, ์ถ”์ถœ, BoW/TF-IDF

    ๋ถˆ์šฉ์–ด(Stop words) ์ž์ฃผ ๋“ฑ์žฅํ•˜์ง€๋งŒ ์ž์—ฐ์–ด๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด ํฐ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š” ๋‹จ์–ด ๊ฐ–๊ณ  ์žˆ๋Š” ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ์ตœ๋Œ€ํ•œ ์œ ์˜๋ฏธํ•œ ๋‹จ์–ด(ํ† ํฐ)๋ฅผ ์„ ๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ๋ถˆ์šฉ์–ด๋Š” ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. I, he, her, ์กฐ์‚ฌ, ์ ‘๋ฏธ์‚ฌ ๊ฐ™์€ ๋‹จ์–ด๋“ค์ด ๋Œ€๋ถ€๋ถ„ ๋ถˆ์šฉ์–ด๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์–ด๊ฐ„ ์ถ”์ถœ(Stemming) ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ๋‹จ์–ด๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜ ๋‹จ์–ด์—์„œ ๊ฐœ๋…์  ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ์–ด๊ฐ„๋งŒ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ• ex) analysis๊ณผ analytic -> ๋‘˜ ๋‹ค ๋ถ„์„์˜ ์˜๋ฏธ๋ฅผ ๊ฐ–๊ณ  ์žˆ์œผ๋ฏ€๋กœ analy๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์‹œ์™€ ๊ฐ™์ด ์–ด๊ฐ„๋งŒ ์ถ”์ถœํ•˜๋‹ค๋ณด๋‹ˆ ์‚ฌ์ „์— ์—†๋Š” ๋‹จ์–ด๊ฐ€ ์ƒ๊ธฐ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํ‘œ์ œ์–ด ์ถ”์ถœ(Lemmatization) ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ๋‹จ์–ด๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์ค‘..

    [TIL]78. ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNN)

    ํ‚ค์›Œ๋“œ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(Recurrent Neural Network ; RNN) LSTM GRU Attention ์–ธ์–ด ๋ชจ๋ธ(Language Model) ๋ฌธ์žฅ๊ณผ ๊ฐ™์€ ๋‹จ์–ด ์‹œํ€€์Šค์—์„œ ๊ฐ ๋‹จ์–ด(ํ† ํฐ)์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ชจ๋ธ Word2Vec๋„ ๊ทธ ์˜ˆ์‹œ ์ค‘ ํ•˜๋‚˜ ํ†ต๊ณ„์  ์–ธ์–ด ๋ชจ๋ธ(Statistical Language Model, SLM) ์‹ ๊ฒฝ๋ง ์–ธ์–ด ๋ชจ๋ธ ์ด์ „ ๋ฐฉ์‹์œผ๋กœ ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํšŸ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๊ณ„์‚ฐ ํ•œ๊ณ„์  : ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๊ธฐ์— ํฌ์†Œ์„ฑ(Sparsity) ๋ฌธ์ œ ์กด์žฌ ํฌ์†Œ์„ฑ ๋ฌธ์ œ : ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋Š” ๋‹จ์–ด๋Š” ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์—†๋Š” ๋ฌธ์ œ ์‹ ๊ฒฝ๋ง ์–ธ์–ด ๋ชจ๋ธ(Neural Language Model, NLM) ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์ด ์•„๋‹Œ Word2Vec ํ˜น์€ fastText ๋“ฑ์˜ ์ถœ๋ ฅ๊ฐ’์ธ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉ..

    [TIL]77. ๋‹จ์–ด ๋ถ„์‚ฐ ํ‘œํ˜„(Distributed Representation)

    ํ‚ค์›Œ๋“œ ์ž„๋ฒ ๋”ฉ(Embedding) (vs ์›ํ•ซ์ธ์ฝ”๋”ฉ) Word2Vec CBoW, Skip-gram Ditributed Representation ๋ถ„ํฌ ๊ฐ€์„ค : "๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ ๋‹จ์–ด๋“ค๋ผ๋ฆฌ ๋ชจ์—ฌ์žˆ๋‹ค" == ์œ ์œ ์ƒ์ข… ๋ถ„์‚ฐ ํ‘œํ˜„(Distributed Representation) : ๋ถ„ํฌ ๊ฐ€์„ค์„ ์ „์ œ๋กœ, ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐํ™” ์›-ํ•ซ ์ธ์ฝ”๋”ฉ(One-Hot Encoding) ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜ ์ง๊ด€์ ์ด๊ณ  ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Œ ๋‹จ์  : ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•  ์ˆ˜ ์—†์Œ(ํ•ญ์ƒ ๋‚ด์ ๊ฐ’์ด 0, ๋‹จ์–ด ์‚ฌ์ด ๊ด€๊ณ„ ํŒŒ์•… ๋ถˆ๊ฐ€), ์ฐจ์›์˜ ์ €์ฃผ ์ž„๋ฒ ๋”ฉ(Embedding) ๋‹จ์–ด๋ฅผ ๊ณ ์ •๋œ ๊ธธ์ด์˜ ๋ฒกํ„ฐ(์ฐจ์›์ด ์ผ์ •ํ•œ ๋ฒกํ„ฐ)๋กœ ํ‘œํ˜„ 0, 1๋กœ๋งŒ ์ด๋ฃจ์–ด์ง„ ์›ํ•ซ์ธ์ฝ”๋”ฉ๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ์—ฐ์†์ ์ธ ๊ฐ’์„ ๊ฐ€์ง„ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ ์ž„๋ฒ ๋”ฉ ์ž์ฒด์˜ ๊ฐœ๋…..

    [TIL]76. NLP(Natural Language Processing)

    ํ‚ค์›Œ๋“œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ ๋“ฑ์žฅ ํšŸ์ˆ˜(๋นˆ๋„์ˆ˜) ๊ธฐ๋ฐ˜ ๋‹จ์–ด ํ‘œํ˜„(๋ฒกํ„ฐํ™”) ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž์—ฐ์–ด : ์‚ฌ๋žŒ๋“ค์ด ์ผ์ƒ์ ์œผ๋กœ ์“ฐ๋Š” ์–ธ์–ด, ์ž์—ฐ์ ์œผ๋กœ ๋ฐœ์ƒ๋œ ์–ธ์–ด ์ธ๊ณต์–ด : ์ธ๊ณต์ ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„ ์–ธ์–ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋กœ ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋“ค ์ž์—ฐ์–ด ์ดํ•ด(Natural Language Understanding ; NLU) ๋ถ„๋ฅ˜ : ๋‰ด์Šค ๊ธฐ์‚ฌ ๋ถ„๋ฅ˜, ๊ฐ์„ฑ ๋ถ„์„ ์ž์—ฐ์–ด ์ถ”๋ก  : ์ „์ œ์— ๋Œ€ํ•œ ๊ฐ€์„ค์˜ ์ฐธ/๊ฑฐ์ง“ ํŒ๋ณ„ ๊ธฐ๊ณ„ ๋…ํ•ด : ํŠน์ • ์ง€๋ฌธ์— ๋Œ€ํ•œ ์งˆ๋ฌธ์— ๋‹ต์„ ํ•˜๋Š” ๊ฒƒ(๋น„๋ฌธํ•™ ์ง€๋ฌธ ํ’€๋“ฏ) ํ’ˆ์‚ฌ ํƒœ๊น…, ๊ฐ์ฒด๋ช… ์ธ์‹ ๋“ฑ ์ž์—ฐ์–ด ์ƒ์„ฑ(Natural Language Generation ; NLG) ํ…์ŠคํŠธ ์ƒ์„ฑ : ex) ๋‰ด์Šค ๊ธฐ์‚ฌ ์ƒ์„ฑ, ๊ฐ€์‚ฌ ์ƒ์„ฑ ๋“ฑ ์ดํ•ด์™€ ์ƒ์„ฑ ๋™์‹œ(NLU/NLG) ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์š”์•ฝ : ์ถ”์ถœ ์š”์•ฝ(๋ฌธ์„œ ๋‚ด์—์„œ ํ•ด๋‹น ๋ฌธ์„œ..