๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

[๋”ฅ๋Ÿฌ๋‹, NLP] ๋ถˆ์šฉ์–ด, ์ถ”์ถœ, BoW/TF-IDF

Jayden1116 2022. 3. 6. 00:29

๋ถˆ์šฉ์–ด(Stop words)

  • ์ž์ฃผ ๋“ฑ์žฅํ•˜์ง€๋งŒ ์ž์—ฐ์–ด๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด ํฐ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š” ๋‹จ์–ด
  • ๊ฐ–๊ณ  ์žˆ๋Š” ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ์ตœ๋Œ€ํ•œ ์œ ์˜๋ฏธํ•œ ๋‹จ์–ด(ํ† ํฐ)๋ฅผ ์„ ๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ๋ถˆ์šฉ์–ด๋Š” ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค.
  • I, he, her, ์กฐ์‚ฌ, ์ ‘๋ฏธ์‚ฌ ๊ฐ™์€ ๋‹จ์–ด๋“ค์ด ๋Œ€๋ถ€๋ถ„ ๋ถˆ์šฉ์–ด๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.

์–ด๊ฐ„ ์ถ”์ถœ(Stemming)

  • ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ๋‹จ์–ด๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜
  • ๋‹จ์–ด์—์„œ ๊ฐœ๋…์  ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ์–ด๊ฐ„๋งŒ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ex) analysis๊ณผ analytic -> ๋‘˜ ๋‹ค ๋ถ„์„์˜ ์˜๋ฏธ๋ฅผ ๊ฐ–๊ณ  ์žˆ์œผ๋ฏ€๋กœ analy๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์˜ˆ์‹œ์™€ ๊ฐ™์ด ์–ด๊ฐ„๋งŒ ์ถ”์ถœํ•˜๋‹ค๋ณด๋‹ˆ ์‚ฌ์ „์— ์—†๋Š” ๋‹จ์–ด๊ฐ€ ์ƒ๊ธฐ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ‘œ์ œ์–ด ์ถ”์ถœ(Lemmatization)

  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ง๋ญ‰์น˜ ๋ฐ์ดํ„ฐ์—์„œ ๋‹จ์–ด๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜
  • ๋‹จ์–ด๋ฅผ ๊ธฐ๋ณธ ์‚ฌ์ „ํ˜•์œผ๋กœ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ex) lives -> life, am -> be
  • ํ‘œ์ œ์–ด ์ถ”์ถœ์˜ ๊ฒฝ์šฐ์—๋„ ์‚ฌ์ „์— ์—†๋Š” ๋‹จ์–ด๊ฐ€ ์ƒ๊ฒจ๋‚˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

Bag-of-Words

  • ํšŸ์ˆ˜ ๊ธฐ๋ฐ˜์˜ ๋‹จ์–ด ํ‘œํ˜„ ์ค‘ ํ•˜๋‚˜๋กœ ์˜ค๋กœ์ง€ ๋‹จ์–ด์˜ ๋นˆ๋„์ˆ˜๋งŒ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.
  • ๋งˆ์น˜ ๊ฐ€๋ฐฉ์— ๋‹จ์–ด๋“ค์„ ๋„ฃ๊ณ  ์„ž์Œ์œผ๋กœ์จ ์ˆœ์„œ๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์˜๋ฏธ๋กœ Bag์ด๋ž€ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๊ณผ์ •

  1. ๋ฌธ์„œ ๋‚ด์˜ ๊ฐ ๋‹จ์–ด์— ๊ณ ์œ ํ•œ ์ •์ˆ˜ ์ธ๋ฑ์Šค๊ฐ’์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.
  2. ๊ฐ ๋‹จ์–ด ํ† ํฐ์˜ ๋“ฑ์žฅ ํšŸ์ˆ˜๋ฅผ ํ•ด๋‹น ํ† ํฐ์˜ ์ธ๋ฑ์Šค ์œ„์น˜์— ํ•ด๋‹นํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

TF-IDF

  • ๋‹จ์–ด์˜ ๋นˆ๋„(Term Frequency ; TF)์™€ ์—ญ ๋ฌธ์„œ ๋นˆ๋„(Inverse Document Frequency ; IDF)๋ฅผ ๊ณฑํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ๊ฐ ๋‹จ์–ด๋“ค๋งˆ๋‹ค ์ค‘์š”ํ•œ ์ •๋„๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๊ณผ์ •

  1. TF : ํŠน์ • ๋ฌธ์„œ์—์„œ ํŠน์ • ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํšŸ์ˆ˜
  2. IDF
    • DF : ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•œ ํŠน์ • ๋ฌธ์„œ์˜ ์ˆ˜
    • IDF : DF์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ๊ฐ’์œผ๋กœ, log( n / (1 + df)) ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (n : ์ด ๋ฌธ์„œ ์ˆ˜)
    • ์—ฌ๊ธฐ์„œ log๋ฅผ ์ทจํ•˜๋Š” ์ด์œ ๋Š” log๋ฅผ ์ทจํ•˜์ง€ ์•Š์„ ๋•Œ, ํฌ๊ท€ ๋‹จ์–ด(๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์„œ๊ฐ€ ๋ช‡๊ฐœ ์—†๋Š” ๋‹จ์–ด)์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ปค์ง€๊ณ  ์ด๋Š” ๊ณง ๋งค์šฐ ํฐ ๊ฐ€์ค‘์น˜๋กœ ์ž‘์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์Šค์ผ€์ผ์„ ์ค„์—ฌ์ฃผ๋Š” ์šฉ๋„๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

TF-IDF ๊ฐ’์€ ํŠน์ • ๋ฌธ์„œ์—์„œ ๋“ฑ์žฅํ•˜๋Š” ์ •๋„์— ๋น„๋ก€ํ•˜๊ณ  ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์„œ ์ˆ˜์—๋Š” ๋ฐ˜๋น„๋ก€ํ•ฉ๋‹ˆ๋‹ค.
์ฆ‰, ํŠน์ • ๋ฌธ์„œ์—์„œ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊ฒƒ์€ ์ค‘์š”๋„๊ฐ€ ๋†’๋‹ค๊ณ  ํŒ๋‹จํ•˜๊ณ  ์—ฌ๋Ÿฌ ๋ฌธ์„œ์—์„œ ๋“ฑ์žฅํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ์ค‘์š”๋„๊ฐ€ ๋‚ฎ๋‹ค๊ณ  ํŒ๋‹จํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.

์ด์ƒ์ž…๋‹ˆ๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. :)