Jayden`s
ANOVA ์์, ์ฌ๋ฌ ์ํ๋ง
1. ANOVA ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ ์๋ตํ๊ฒ ์ต๋๋ค. df_tree.head() df_tree_mel = df_tree.reset_index().melt(id_vars='index', value_vars=['์ํ๋๋ฌด','์๋ฒ์ฆ๋๋ฌด','๋ํฐ๋๋ฌด']) # ์ด์์น ๋ฐ ์๊ฐํ๋ฅผ ์ํ melting from scipy import stats stats.f_oneway(df_tree['์ํ๋๋ฌด'], df_tree['์๋ฒ์ฆ๋๋ฌด'], df_tree['๋ํฐ๋๋ฌด']) F_onewayResult(statistic=17.006289557888046, pvalue=8.935183167883698e-07) ๊ท๋ฌด๊ฐ์ค(H0) : ์์ธ์์ ..
Python ๋ฏธ๋ถ
์๊ทธ๋ชจ์ด๋ ํจ์ ๋ํจ์ ๊ตฌํด์ ๊ฐ ๊ตฌํด๋ณด๊ธฐ from math import exp def sig(x): return 1 / (1 + exp(-x)) # ์ํจ์ ์ ์ from scipy.misc import derivative def sig_prime(x): return derivative(sig, x, dx=1e-5) sig_prime(3) # x=3 ์ผ ๋์ ๊ฐ ๊ตฌํด๋ณด๊ธฐ 0.04517665972980644
๋ฐ์ดํฐ ์ ๋ฆฌ ๋ฐ ์๊ฐํ ์์ ๊ธฐ๋ก
from google.colab import files uploaded = files.upload() import pandas as pd # ์ ๋ก๋ํ๋ ๋ฐฉ์์ผ๋ก ์งํํ์์ต๋๋ค. file1 = pd.read_csv('n113_๋ง๋ฆฌํ๋.txt', sep='\t') file2 = pd.read_csv('n113_ํด์ด.txt', sep='\t') # txt ๋ฐ์ดํฐ๋ผ ๊ตฌ๋ถ์๋ฅผ ์ ํด์ฃผ์์ต๋๋ค. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ฝ๋๋ ์๋ตํ๊ณ์ต๋๋ค. ์์ ๊ฐ์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ฆฌํ ํ 'ํ ๋ง'๋ก ๊ฐ ์ปฌ๋ผ์ ํ๊ท ํ ์ด๋ธ์ ๋ง๋ค์์ต๋๋ค. df1 = df.groupby('ํ ๋ง').mean() !sudo apt-get install -y fonts-nanu..
Feature Engineering_๊ฒฐ์ธก์น ์ฒ๋ฆฌ, apply ํจ์ ์ ์ฉ
NA Value Handling 19๋ ๋ 4๋ถ๊ธฐ์ ๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ) ๋ถ๋ถ์ Na๋ก ๋์ฒดํ์ธ์ ์ดํ ํด๋น ๊ฒฐ์ธก์น๋ฅผ mean imputation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌํ์ธ์. Feature Engineering Relative Perfomance ๋ผ๋ ์๋ก์ด feature๋ฅผ ๊ณ์ฐํ์ธ์. ์ด๋ ์ต๊ทผ 1๋ ์น ๋งค์ถ์ก์ ํ๊ท ๊ฐ์ ๊ธฐ์ค์ผ๋ก 10% ์ด์ -> S 5% ์ด์ -> A -5 ~ 5% -> B -5%์ดํ -> C 10%์ดํ -> D ๋ผ๋ ๊ฐ์ ๊ฐ๋ feature์ ๋๋ค. 20๋ ๋ 2๋ถ๊ธฐ์ ํด๋นํ๋ ๊ฒฐ๊ณผ๊ฐ์ A๊ฐ ๋์์ผํฉ๋๋ค. ๊ฐ๊ฐ์ ํด๋นํ๋ ๋ฑ๊ธ์ด ๋์ค๊ธฐ ์ํด์ ํ์ํ ๋งค์ถ์ก์ ์ถ๊ฐ๋ก ์์ ํ์ธ์. url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws...
Seaborn 'penguins'
import seaborn as sns pp = sns.load_dataset('penguins') penguins ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ์ฌ์ฉํฉ๋๋ค. ์ด์ ๋ํด ์๋์ task๋ค์ ์ํํ์ธ์. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ (์ ๊ฑฐ) bill_length_mm์ ๋ํด์ qqplot ๊ทธ๋ฆฌ๊ธฐ island์ ๋ํด์ ๋ค๋ฅธ 4๊ฐ์ numerical feature ๋ฅผ boxplot์ผ๋ก ํํํ๊ธฐ ๊ฐ numerical feature์ ๋ํด์ summary statistics : mean, sd, Quantiles(1Q, 2Q, 3Q, 4Q)๋ฅผ ๊ณ์ฐํ์ธ์. 1. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ(์ ๊ฑฐ) pp.isna().sum() # ๋จผ์ ๊ฒฐ์ธก์น ๊ฐ์๋ฅผ ํ์ธํ์์ต๋๋ค. pp_clean = pp.dropna(axis=0) # ๊ฒฐ์ธก์น๋ฅผ ๊ฐ๊ณ ์๋ ํ ์ ๊ฑฐ ..