๐ฟ Data/์ด๋ชจ์ ๋ชจ
Feature Engineering_๊ฒฐ์ธก์น ์ฒ๋ฆฌ, apply ํจ์ ์ ์ฉ
NA Value Handling 19๋ ๋ 4๋ถ๊ธฐ์ ๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ) ๋ถ๋ถ์ Na๋ก ๋์ฒดํ์ธ์ ์ดํ ํด๋น ๊ฒฐ์ธก์น๋ฅผ mean imputation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌํ์ธ์. Feature Engineering Relative Perfomance ๋ผ๋ ์๋ก์ด feature๋ฅผ ๊ณ์ฐํ์ธ์. ์ด๋ ์ต๊ทผ 1๋ ์น ๋งค์ถ์ก์ ํ๊ท ๊ฐ์ ๊ธฐ์ค์ผ๋ก 10% ์ด์ -> S 5% ์ด์ -> A -5 ~ 5% -> B -5%์ดํ -> C 10%์ดํ -> D ๋ผ๋ ๊ฐ์ ๊ฐ๋ feature์ ๋๋ค. 20๋ ๋ 2๋ถ๊ธฐ์ ํด๋นํ๋ ๊ฒฐ๊ณผ๊ฐ์ A๊ฐ ๋์์ผํฉ๋๋ค. ๊ฐ๊ฐ์ ํด๋นํ๋ ๋ฑ๊ธ์ด ๋์ค๊ธฐ ์ํด์ ํ์ํ ๋งค์ถ์ก์ ์ถ๊ฐ๋ก ์์ ํ์ธ์. url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws...
Seaborn 'penguins'
import seaborn as sns pp = sns.load_dataset('penguins') penguins ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ์ฌ์ฉํฉ๋๋ค. ์ด์ ๋ํด ์๋์ task๋ค์ ์ํํ์ธ์. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ (์ ๊ฑฐ) bill_length_mm์ ๋ํด์ qqplot ๊ทธ๋ฆฌ๊ธฐ island์ ๋ํด์ ๋ค๋ฅธ 4๊ฐ์ numerical feature ๋ฅผ boxplot์ผ๋ก ํํํ๊ธฐ ๊ฐ numerical feature์ ๋ํด์ summary statistics : mean, sd, Quantiles(1Q, 2Q, 3Q, 4Q)๋ฅผ ๊ณ์ฐํ์ธ์. 1. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ(์ ๊ฑฐ) pp.isna().sum() # ๋จผ์ ๊ฒฐ์ธก์น ๊ฐ์๋ฅผ ํ์ธํ์์ต๋๋ค. pp_clean = pp.dropna(axis=0) # ๊ฒฐ์ธก์น๋ฅผ ๊ฐ๊ณ ์๋ ํ ์ ๊ฑฐ ..
๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ ์์2
# Import Packages import pandas as pd import numpy as np import seaborn as sns # dataset upload df = sns.load_dataset("titanic") df 1. index ๋ฐ columns ๋ค๋ฃจ๊ธฐ Q. 'survived' ์ปฌ๋ผ์ index๋ก ๋ง๋ค์ด ํ์ธํ๊ณ , ๋ค์ 'survived' ์ปฌ๋ผ์ ๋๋ ค๋์ ๋ค ์ธ๋ฑ์ค๋ฅผ ์ด๊ธฐํ์ํค์ธ์. df.set_index('survived', inplace=True) temp = df.index df.reset_index(drop=True, inplace=True) df['survived'] = temp Q. DataFrame df์ ์ปฌ๋ผ๋ช ..
๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ ์์1
# Import Packages import pandas as pd import numpy as np import seaborn as sns # dataset upload df = sns.load_dataset("titanic") df 1. ๊ฒฐ์ธก์น ๋ค๋ฃจ๊ธฐ Q. 'deck'์ปฌ๋ผ์ ๊ฒฐ์ธก์น ๊ฐ์๋ ๋ช ๊ฐ์ธ๊ฐ์? df['deck'].isna().sum() # ํน์ ์ปฌ๋ผ์ ๊ฒฐ์ธก์น ๊ฐ์ ์ธ๊ธฐ Q. ๋ชจ๋ ๊ฒฐ์ธก์น๋ ์ปฌ๋ผ๊ธฐ์ค ์ง์ ์ ๊ฐ์ผ๋ก ๋์ฒดํ๊ณ , ์ฒซ๋ฒ์งธ ํ์ ๊ฒฐ์ธก์น๊ฐ ์์ ๊ฒฝ์ฐ ๋ค์ ์๋ ๊ฐ์ผ๋ก ๋์ฒดํ์ธ์ df['deck'].fillna(method='ffill', inplace=True) # ๋จผ์ ์ ์ฒด์ ๋ํด์ ์ง์ ๊ฐ ์ ์ฉ df['deck']...
Cramer's rule(ํฌ๋ ์ด๋จธ ์๊ฑฐ๋ฒ)
๋ค์ ๋งํฌ์ ๋ด์ฉ์ ์ฐธ์กฐํ์ฌ Cramer's rule์ ์ฌ์ฉํด x1 , x2 , x3 ์ ๊ฐ์ ๊ตฌํ์ธ์. https://youtu.be/6StS7VjtuGI x1 + 2x3 = 6 −3x1 + 4x2 + 6x3 = 30 −x1 −2x2 + 3x3 = 8 ๊ฐ์ธ์ ์ผ๋ก ์์ ์์์ ๋๋ต ์ดํดํ๊ณ ์ฝ๋๋ก ๊ตฌํํด๋ดค๋๋ฐ, ๊ณ์ฐ ํ์๋ฅผ ๋๋ฆด ๋๋ง๋ค ๊ณ์ ๊ฐ์ด ๋ฌ๋ผ์ ธ์ ๊ตฌ๊ธ๋งํด์ ๋์จ ๊ณต์์ ์ ์ฉํ์์ต๋๋ค. import numpy as np A = np.array([[1, 0, 2], [-3, 4, 6], [-1, -2, 3]]) b = np.array([[6], [30], [8]]) det(A)์ ๊ฐ์ ๊ฐ๊ฐ 1ํ์ b๋ฅผ ๋ฃ๊ณ ๋์จ det ๊ฐ, 2ํ์ ๋ฃ๊ณ ๋์จ ๊ฐ, 3ํ์ ๋ฃ๊ณ ๋์จ ๊ฐ์ ๋๋๋ฉด ๊ทธ๊ฒ ๊ณง ํด๊ฐ..