titanic ๋ฐ์ดํฐ์ ๋ํ ์๊ด๊ณ์๋ฅผ ํํํ heatmap
heatmap์ ํตํด ํ์ธํ ์ ์๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ ๋ฌด์์ธ๊ฐ?
titanic data์์ ์๋ ์นผ๋ผ(feature) ๋ณ๋ก ์/์/๋ฌด ์๊ด๊ด๊ณ์ ๋ํด์ ์ ์ ์๋ค.
์๋ฅผ ๋ค์ด 'survived'์ 'adult_male'์ ์๊ด๊ณ์๋ -0.56
๋จ์ํ๊ฒ ์ด ์์น๋ง ๋๊ณ ๋ณด๋ฉด '์์กด ์ฌ๋ถ์ ์ฑ์ธ ์ด๋ฅธ ์ฌ๋ถ๊ฐ ์์ ์๊ด๊ด๊ณ' ์ฆ, ์ฑ์ธ ๋จ์ฑ์ด ๋ ์์กด์จ์ด ๋ฎ์๋ค๋ ์ด์ผ๊ธฐ
์ฌ๊ธฐ์ ํ ๋ฒ ๋ ํด์ํ๋ฉด ์ฑ์ธ ๋จ์ฑ๋ค์ด ๋ค๋ฅธ ์ฌ๋๋ค์ ์์กด์ ๋๋ค๊ฐ ํฌ์๋๋ค ๋ ๋ฑ์ ํด์์ด ๊ฐ๋ฅ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์์ ์์์ ํ์ธํ๊ณ ๊ทธ ๋์ ์ฐ๊ด์ฑ ๋ฐ ์ฐจ์ด์
์ฐ๊ด์ฑ(๊ณตํต์ ) : ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์ ๋ชจ๋ ํน์ ๋ฒกํฐ(ํน์ ์นผ๋ผ, ์ด, ์นดํ ๊ณ ๋ฆฌ ๋ฑ)์ ๋ํด ๊ทธ ๋๊ฐ์ ๊ฐ์ด ์ด๋ ์ ๋๋ก ์ ๋๋ ์์ ๊ด๊ณ๋ฅผ ๊ฐ๊ณ ์๋์ง๋ฅผ ๋น๊ตํ๋ ์งํ์ด๋ค.
์ฐจ์ด์ : ์์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง ์๊ด๊ณ์๋ ๊ณต๋ถ์ฐ์ ํ์คํํ ๊ฒ, ์ข ๋ ์ ํํ ํํํ๋ฉด ๊ฐ ๋ณ์๋ฅผ ํ์คํํ ํ ๋ ๋ณ์์ ๊ด๊ณ๋ฅผ ํ์ธ
ํ์คํํ๋ ์ด์ ๋ ๋จ์์ ๋ฐ๋ผ(๋ณ์์ scale์ ๋ฐ๋ผ) ๊ณต๋ถ์ฐ ๊ฐ์ด ํฌ๊ฒ ๋์ค๋ ๊ฒ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ, ๊ทธ๋ฅ ์ซ์๊ฐ ํด์๋ก ๊ณต๋ถ์ฐ ๊ฐ์ด ์ปค์ง๊ณ ๊ทธ๋ฌ๋ฉด ์ฐ๋ฆฌ๋ 2๊ฐ์ ๊ณต๋ถ์ฐ์ ๋น๊ตํ์ ๋, ๋จ์ํ๊ฒ ๋ ์ซ์๊ฐ ํฐ ๊ฐ์ ๋ณด๊ณ '์, ์๊ฐ ๋ ๊ด๊ณ์ฑ์ด ํฌ๋ค'๋ผ๊ณ ํ๋จํ ์ ์๊ธฐ ๋๋ฌธ. ๊ทธ๋ ๊ธฐ์ ๋ณ์๋ค๋ง๋ค ๊ฐ๊ณ ์๋ ๋จ์ ์ฆ, scale์ ๋ง์ถฐ์ฃผ์ด -1๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๊ธฐ์ค์ ๋ง์ถฐ์ค ๊ฐ์ด ์๊ด๊ณ์
- ์๊ด๊ด๊ณ์ ์ธ๊ณผ๊ด๊ณ์ ์ฐจ์ด์ ์ฌ์ค ์ ํํ๊ฒ ๋น๊ตํด๋ด์ผ๊ฒ ์ง๋ง ์์์ ์์ ์์๋ฅผ ํตํด ์๊ฐํด๋ณด๋ฉด
์ธ๊ณผ๊ด๊ณ : '๊ธฐ์จ์ด ์ค๋ฅธ๋ค.' -> '์์ด์คํฌ๋ฆผ ํ๋งค๋์ด ์ฆ๊ฐํ๋ค.' # ์ฌ์ค ์ด๊ฒ๋ ์ ํํ์ง์์ง๋ง ์์์ ์์ ์ธ๊ณผ๊ด๊ณ๋ผ๊ณ ์น๋ค.
์๊ด๊ด๊ณ : '์์ด์คํฌ๋ฆผ ํ๋งค๋์ด ์ฆ๊ฐํ๋ค.' -> '์ต์ฌํ๋ ์ฌ๋ง์ ์๊ฐ ์ฆ๊ฐํ๋ค.' # ์ด ๋์ ์์ด์คํฌ๋ฆผ์ ๋ง์ด ํ๋ค๊ณ ์ต์ฌํ๋ ์ฌ๋ง์ ์๊ฐ ์ฆ๊ฐํ์ง ์์(์ธ๊ณผ์ฑ์ ์๋ค.) ๋ค๋ง ์ด ๋์ ์๊ด๊ด๊ณ๊ฐ ๋์ ์ด์ ๋ ์ค๊ฐ์ '์ฌ๋ฆ์ด ์จ๋ค', '๊ธฐ์จ์ด ์ฆ๊ฐํ๋ค.', '๊ฐ์ฅํ๋ ํด์์์ฅ ์๊ฐ ์ฆ๊ฐํ๋ค.' ๋ฑ ์ด ๋์ ์๊ด๊ด๊ณ๋ฅผ ์ค๋ช
ํ๋ ๋ณ์๋ค์ด ์๊ธฐ ๋๋ฌธ..!
๋ค์ ๋งํด, ์์ ํ์ดํ๋ ์์๋ '์๊ด๊ณ์'์ด๊ธฐ ๋๋ฌธ์ ๋ณ์๋ผ๋ฆฌ์ '์ธ๊ณผ์ฑ'์ ๋ฐ๋ก ์ฆ๋ช
ํ ํ์๊ฐ ์๋ค.
์ถ๊ฐ
import numpy as np
np.cov(s1, s2) # numpy๋ฅผ ์ด์ฉํ ๊ณต๋ถ์ฐ ๊ตฌํ๊ธฐ cf)์ฌ๊ธฐ์ ddof๋ 0๊ณผ 1 ์ค ๋ชจ์ง๋จ์ด๋ ํ๋ณธ์ง๋จ์ด๋๋ก ์กฐ์
np.corrcoef(s1, s2) # numpy๋ฅผ ์ด์ฉํ ์๊ด๊ณ์ ๊ตฌํ๊ธฐ
# ๋ ๊ฐ ๋ชจ๋ ์์ heatmap์ฒ๋ผ ๋์นญํ๋ ฌ ๊ผด๋ก ๊ฐ์ด ๋์จ๋ค. ํจ์๊ฐ ์๊ธฐ ์์ ํ๊ณ ๋ ๋น๊ตํ๊ฒ ๋ ๋์ด์์ด์ ๊ทธ๋ ๋ค.(๋นํฉใดใด)
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Clustering(๊ตฐ์งํ) (0) | 2021.12.06 |
---|---|
Dimension Reduction(์ฐจ์ ์ถ์) (0) | 2021.12.04 |
Verctor, Matrix, DataFrame (0) | 2021.12.01 |
Bayesian Statistics(๋ฒ ์ด์ฆ์ฃผ์) vs Frequentist statistics(๋น๋์ฃผ์) (0) | 2021.11.29 |
ANOVA ์์ (0) | 2021.11.29 |