- ๋ค์ ๋งํฌ๋ ๋ค์ํ ์๊ฐํ ๋ฐฉ๋ฒ๋ค์ด ๋์์๋ Seaborn๊ณผ Matplotlib ์ ๊ณต์๋ฌธ์์ ๋๋ค. ๋งํฌ ์์ ์๊ฐํ ๋ฐฉ๋ฒ ์ค ํ๋๋ฅผ ์ ํํ์ฌ, ๊ณ ๋ฅธ ์ด์ ์ ํด๋น ์๊ฐํ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ์๊ฐํด ์ฃผ์ธ์.
- ์ ๋ seaborn์ violinplot์ ์ ํํ์ต๋๋ค! ๋จผ์ violinplot์ boxplot๊ณผ ๋์ผํ๊ฒ ์ผ๋ณ๋, ์ฐ์ํ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํ ๊ทธ๋ํ์ ๋๋ค. ๋ด์ฉ ์์ฒด๋ boxplot๊ณผ ๊ฐ์ผ๋ ์ปค๋ ๋ฐ๋ ๊ณก์ ์ ๋ํด, ์นดํ ๊ณ ๋ฆฌ๊ฐ์ ๋ฐ๋ฅธ ๊ฐ ๋ถํฌ์ ์ค์ ๋ฐ์ดํฐ ๋๋ ์ ์ฒด ํ์์ ๋ณด์ฌ์ค๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
- ํ์ฆ์ ๋ฐ์ดํฐ ๋ถ์(CDA: Confirmatory Data Analysis)๊ณผ ํ์์ ์๋ฃ ๋ถ์(EDA: Exploratory Data Analysis)์ ์ฐจ์ด์ ์ ์ค๋ช ํ๊ณ ,๊ฐ๊ฐ ์ด๋ค ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋์ง ๋ง์ํด์ฃผ์ธ์.
- ํ์ฆ์ ๋ฐ์ดํฐ ๋ถ์(CDA) : ๋ชฉ์ ์ ๊ฐ์ง๊ณ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ฌ ๋ถ์ํ๋ ๋ฐฉ๋ฒ. ๊ด์ธก๋ ๋ฐ์ดํฐ์ ํํ๋ ํจ๊ณผ์ ์ฌํ์ฑ ํ๊ฐ, ์ ์์ฑ ๊ฒ์ , ์ ๋ขฐ๊ตฌ๊ฐ ์ถ์ ๋ฑ ํต๊ณ์ ์ถ๋ก ์ ํ๋ ๋จ๊ณ. ๊ฐ์ค๊ฒ์ , ์ค๋ฌธ์กฐ์ฌ, ๋ ผ๋ฌธ์ ๋ํ ๋ด์ฉ์ ์ ์ฆํ๋๋ฐ ๋ง์ด ์ฌ์ฉ.
- ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA) : ์์ฌ์๋(์ด๋ฏธ ์๋) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ค์ ์ธ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ. ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ํน์ง์ ํ์ ํ๋ฉฐ ์ป์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ํต๊ณ๋ชจํ์ ๋ง๋๋ ๋จ๊ณ. ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ฌ์ฉ.
- ์๋์ ๋งํฌ์ ์ธ์ฉ๊ตฌ๋ฅผ ์ฐธ์กฐํด, EDA์ ์ค์์ฑ์ ๋ํด์ ์๊ฐํด๋ณด๊ณ ์์ ๋กญ๊ฒ ์๊ฐ์ ์์ ํด์ฃผ์ธ์.
- EDA๋ ์ด๋ค ๋ชฉ์ ์ ์ ์ ํด๋๊ณ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ณ ๋ถ์ํ๋ CDA์๋ ๋ค๋ฅด๊ฒ ๋ง๊ทธ๋๋ก 'ํ์์ '์ด๋ผ๋ ์ ์์ ๊ทธ ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐํฉ๋๋ค. A๋ผ๋ ๋ชฉ์ ์ง๋ฅผ ๋๊ณ ๋ฒ์ค๋ฅผ ์ด๋ป๊ฒ ํ๊ณ , ์งํ์ฒ ์ ๊ฐ์ํ์ ๋ช๋ถ ๊ฑธ์ด๊ฐ๋ฉด ๋๊ฒ ๋ค ๋ผ๋ ๋๋์ด ์๋ ์ผ๋จ ์ถ๋ฐํด์ ์์ผ๋ก ๋์๊ฐ๋ฉด์ ๊ทธ ๋ ๊ทธ ๋ ์ํฉ์ ๋์ฒํ๋ 'ํํ'์ ๋๋๊ฐ๊ธฐ๋ ํ๊ณ ...... ์ฃผ์ด์ง ์ํฉ(๋ฐ์ดํฐ)์ ์๊ฐํํด๋ณด๊ณ ํต๊ณ์ ์์น๋ฅผ ๋ํ๋ด๋ณด๊ณ ์ด๋ฆฌ์ ๋ฆฌ ๋ฏ์ด๋ณด๋ฉด์ ํน์ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ ์ ์๋ค๋ ์ ์ด ๋งค๋ ฅ์ ์ด๊ณ ๋ฐ์ดํฐ ๋ถ์์ ์์ด ๊ฐ์ฅ ์ต์ฐ์ ์ผ๋ก ์ํ๋์ด์ผํ ๋จ๊ณ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
"'์๋ชป๋ ์ง๋ฌธ'์ ๋ํ 'ํ์คํ ๋ต'์ ํญ์ ๊ฒฐ๋ก ์ด ํ์คํ ์๋ ์์ผ๋, ์ข ์ข ๊ฒฐ๋ก ์ด ์ ๋งค๋ชจํธํ๊ฒ ๋๊ธด ํ์ง๋ง '์ ํํ ์ง๋ฌธ'์ ๋ํ '๋๋ต์ ์ธ ๋ต'์ด ๋ ๋ซ๋ค." ์์ ๊ฐ์ฅ ํต์ฌ์ 'ํ์คํ ๋ต'๋ณด๋ค '์ ํํ ์ง๋ฌธ'์ด ์ฐ์ ์ด๋ ๊ฒ ์๋๊น ์ถ์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก EDA๋ฅผ ํตํด ๋ฐ์ดํฐ์์ ์ฐ๋ฆฌ๊ฐ ์ด๋ค ์ ํํ ์ง๋ฌธ์ ํ ์ ์์์ง ์๊ฐํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
1.
๋ค์ ๋งํฌ๋
๋ค์ํ ์๊ฐํ ๋ฐฉ๋ฒ๋ค
์ด ๋์์๋ Seaborn๊ณผ Matplotlib ์ ๊ณต์๋ฌธ์์ ๋๋ค.
๋งํฌ ์์ ์๊ฐํ ๋ฐฉ๋ฒ ์ค ํ๋๋ฅผ ์ ํํ์ฌ, ๊ณ ๋ฅธ ์ด์ ์ ํด๋น ์๊ฐํ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ์๊ฐํด ์ฃผ์ธ์.๋๊ธฐ๋ถ๋ค์๊ฒ ์ค๋ช ํ๋ฏ์ด ํน์ ๊ฐ์๋ฅผ ํ๋ฏ์ด ์์ ๋กญ๊ฒ ์ค๋ช ํด์ฃผ์ธ์!
๋งํฌ
2.
ํ์ฆ์ ๋ฐ์ดํฐ ๋ถ์(CDA: Confirmatory Data Analysis)๊ณผ
ํ์์ ์๋ฃ ๋ถ์(EDA: Exploratory Data Analysis)์ ์ฐจ์ด์ ์ ์ค๋ช ํ๊ณ ,
๊ฐ๊ฐ ์ด๋ค ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋์ง ๋ง์ํด์ฃผ์ธ์.3.
์๋์ ๋งํฌ์ ์ธ์ฉ๊ตฌ๋ฅผ ์ฐธ์กฐํด,
EDA์ ์ค์์ฑ
์ ๋ํด์ ์๊ฐํด๋ณด๊ณ ์์ ๋กญ๊ฒ ์๊ฐ์ ์์ ํด์ฃผ์ธ์.์๋ชป๋ ์ง๋ฌธ'์ ๋ํ 'ํ์คํ ๋ต'์ ํญ์ ๊ฒฐ๋ก ์ด ํ์คํ ์๋ ์์ผ๋, ์ข ์ข ๊ฒฐ๋ก ์ด ์ ๋งค๋ชจํธํ๊ฒ ๋๊ธด ํ์ง๋ง '์ ํํ ์ง๋ฌธ'์ ๋ํ '๋๋ต์ ์ธ ๋ต'์ด ๋ ๋ซ๋ค. -John Tukey
- ๋งํฌ
- John Tukey ๋ ๋ฒจ ์ฐ๊ตฌ์์์ ๊ทผ๋ฌดํ๋ฉด์ bit ๋ผ๋ ๋จ์ด๋ฅผ ๋ง๋ค์ด๋ธ ๋ถ์ ๋๋ค. 1977๋ ์ ๋ฐ์ดํฐ ๋ถ์์ ๋ํด ๋ธ ์ฑ ์ด ์๋๋ฐ, ๊ทธ ์ฑ ์ ์ด๋ฆ์ด Exploratory Data Analysis ์ ๋๋ค.
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Hypothesis Test(๊ฐ์ค ๊ฒ์ ) 2 (0) | 2021.11.29 |
---|---|
Hypothesis Test(๊ฐ์ค๊ฒ์ ) (0) | 2021.11.28 |
Basic Derivative(์ถ๊ฐ) (0) | 2021.11.28 |
PCA(Principal Component Analysis) (0) | 2021.11.15 |
KNN(K-Nearest Neighbors) (0) | 2021.11.09 |