Jayden`s
[๋ฅ๋ฌ๋, NLP] ๋ถ์ฉ์ด, ์ถ์ถ, BoW/TF-IDF
๋ถ์ฉ์ด(Stop words) ์์ฃผ ๋ฑ์ฅํ์ง๋ง ์์ฐ์ด๋ฅผ ๋ถ์ํ๋ ๊ฒ์ ์์ด ํฐ ๋์์ด ๋์ง ์๋ ๋จ์ด ๊ฐ๊ณ ์๋ ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ์ต๋ํ ์ ์๋ฏธํ ๋จ์ด(ํ ํฐ)๋ฅผ ์ ๋ณํ๊ธฐ ์ํด ๋ถ์ฉ์ด๋ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ข์ต๋๋ค. I, he, her, ์กฐ์ฌ, ์ ๋ฏธ์ฌ ๊ฐ์ ๋จ์ด๋ค์ด ๋๋ถ๋ถ ๋ถ์ฉ์ด๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค. ์ด๊ฐ ์ถ์ถ(Stemming) ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ๋จ์ด๋ฅผ ์ค์ผ ์ ์๋ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค ํ๋ ๋จ์ด์์ ๊ฐ๋ ์ ์๋ฏธ๋ฅผ ๊ฐ๋ ์ด๊ฐ๋ง ์ถ์ถํ๋ ๋ฐฉ๋ฒ ex) analysis๊ณผ analytic -> ๋ ๋ค ๋ถ์์ ์๋ฏธ๋ฅผ ๊ฐ๊ณ ์์ผ๋ฏ๋ก analy๋ก ์ค์ผ ์ ์์ต๋๋ค. ์์์ ๊ฐ์ด ์ด๊ฐ๋ง ์ถ์ถํ๋ค๋ณด๋ ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์๊ธฐ๊ฒ ๋ฉ๋๋ค. ํ์ ์ด ์ถ์ถ(Lemmatization) ๋ง์ฐฌ๊ฐ์ง๋ก ๋ง๋ญ์น ๋ฐ์ดํฐ์์ ๋จ์ด๋ฅผ ์ค์ผ ์ ์๋ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค..
[1564]ํ๊ท
import sys N = int(sys.stdin.readline()) arr = list(map(int, sys.stdin.readline().split())) num_max = max(arr) a = 0 for i in arr: a += (i / num_max * 100) print(a / N) 1564 ํ๊ท
[3052]๋๋จธ์ง
import sys arr = [] for _ in range(10): arr.append(int(sys.stdin.readline()) % 42) arr = set(arr) print(len(arr)) 3052 ๋๋จธ์ง
[10818]์ต์, ์ต๋
import sys N = int(sys.stdin.readline()) arr = list(map(int, sys.stdin.readline().split())) print(min(arr), max(arr)) 10818 ์ต์, ์ต๋
![[๊ฒฝ์ ]220304_๋ฏธ๊ตญ ๊ธ๋ฆฌ์ธ์](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FZswGu%2Fbtru6Nj2F5o%2FnUzWDMnjJHESO9ANcoaH5k%2Fimg.png)
[๊ฒฝ์ ]220304_๋ฏธ๊ตญ ๊ธ๋ฆฌ์ธ์
- ์ผ๋จ์ ์์ ๋๋๋ก๋ง ๊ธ๋ฆฌ ์ธ์ ์งํ - ํ์ฌ ์ฐํฌ๋ผ์ด๋ ์ฌํ๋ก ๋ถํ์คํ ์ํฉ์์ ๋๋ฌด ํฐ ๋ฌด๋ฆฌํ์ง ์๊ฒ ๋ค๋ ์ ์ฅ - ๋ค๋ง, ๊ทธ ๋ง์ ๊ณ์ ๋ ์ํฉ์ผ๋ก ์ธํ๋ ์ด์ ์ด ๋ ์ง์ ๋์ง ์์ผ๋ฉด ๋ ๋ชจ๋ฆ - ๋์ฐจ๋์กฐํ ์ถ์ : ์ฐ์ค์ด ๋ณด์ ํ ์์ฐ์ ๊ฐ์ถํ๋ค๋ ์๋ฏธ, ํ๋ฐ ์ฐ์ค์ ์์ฐ ๋๋ถ๋ถ์ ์ฑ๊ถ์ด๋ค. ์ฆ, ๋ค์ ๋งํด ์์ฐ ๊ฐ์ถ์ ์ฑ๊ถ์ ๋งค๊ฐํ๋ ๊ฒ์ผ๋ก ํ๊ธ์ ๊ฑฐ๋ฌ๋ค์ด๊ฒ ๋ค๋ ์๋ฏธ. ๊ธ๋ฆฌ์ธ์๊ณผ ๋น์ทํ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค.(์์ค ํ๊ธ์ ํก์ํ๋ ๊ฒ)