๐ฟ Data/์ด๋ชจ์ ๋ชจ
์๊ฐํ๋ฅผ ํตํด ํ์ธํ Imputer์ ์ฐจ์ด
2๊ฐ ์ด์์ imputer๋ฅผ ์ฌ์ฉํด ๊ฐ๊ฐ ํน์ฑ-ํ๊ฒ ๊ด๊ณ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค ๊ณต์ ํ๊ณ ๋ค์ ์ง๋ฌธ์ ๋ํด ์๋ก ๋ ผ์ํด ๋ณด์ธ์. ๋จผ์ ํน์ฑ์ค์๋์์ ๊ฐ์ฅ ์ค์๋๊ฐ ๋๊ฒ ๋์จ 'doctor_recc_h1n1' ํน์ฑ์ ๋ํด์๋ง Imputer ๋ณ๊ฒฝ์ ๋ฐ๋ฅธ ํ๊ฒ์์ ๊ด๊ณ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค๋ณด์์ต๋๋ค. seaborn plots ์ฌ์ฉํ์ฌ ๊ด์ฌ์๋ ํน์ฑ๋ค๊ณผ target๊ฐ์ ๊ด๊ณ๋ฅผ ๊ทธ๋ํ๋ก ๋ํ๋ด ๋ณด์ธ์. Imputer๋ฅผ ์ ์ฉํ์ง ์์์ ๋ ๋ณ์์ ํ๊ฒ ๋ชจ๋ binaryํ ๊ฐ์ผ๋ก 0๊ณผ 1์ ๋ํ ๊ฐ๋ค๋ง ์ฐํ๋ ๊ฒ์ด ๋ณด์ ๋๋ค. SimpleImputer(strategy='mean') ์ ์ฉ ์ imputer1 = SimpleImputer(strategy='mean') train_imp1 = im..
Ridge regression, ๋ชจ๋ธ ์ฑ๊ณผ ํ๊ฐ ์งํ, OneHotencoding, feature selection
1) ๋ณธ์ธ๋ง์ ์์ด๋์ด๋ก best ridge regression model์ ๋ง๋ค์ด ์๋ก ๊ณต์ ํ์๊ณ ํ ๋ก ํด ๋ณด์ธ์. ์ด๋ค ํน์ฑ๊ณตํ์ ์ฌ์ฉํ๊ณ , ๊ทธ ์ด์ ์ ๊ธฐ๋ํจ๊ณผ๋ ๋ฌด์์ด์๋์? ์ฒ์ ๋ณ์๋ 'Rooms, Type, Price, Method, Postcode, Regionname, Propertycount, Distance, CouncilArea' ์ ๋๋ค. ์ด ์ค OneHotencoding์ ์ผ๋์ ๋๊ณ unique ๊ฐ์ด ๋๋ฌด ๋ง๋ค๊ณ ํ๋จํ ๋ณ์๋ drop ํด์ฃผ์์ต๋๋ค. ๋ 'Postcode' ๊ฐ์ ๊ฒฝ์ฐ ์ซ์ํ ๋ฐ์ดํฐ์ธ๋ฐ ๊ทธ ์์(ํฌ๊ธฐ)๊ฐ ์๋ฏธ๊ฐ ์์ ๊ฒ์ด๋ผ ํ๋จํ๊ณ ์ฐจ๋ผ๋ฆฌ Regionname์ ์ํซ์ธ์ฝ๋ฉ์ ํตํด ๊ทธ ์ง์ญ์ ๋ํ ๋ณ์๋ก ๋์ ํด์ฃผ๋ ๊ฒ ์ณ๋ค ์๊ฐํ์ฌ dropํ์..
์๋ก์ด ํน์ฑ(ํน์ฑ๊ณตํ), ์ด์์น, Scaler, ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์
1) ์๋ก์ด ํน์ฑ์ ๋ง๋ค ์ ์๋ค๋ฉด, ์ด๋ค ํน์ฑ๊ณตํ์ ํด ๋ณผ ์ ์์๊น์? BMI(๋น๋ง์ง์) = ๋ชธ๋ฌด๊ฒ / ํค^2 (ํค : [m], ๋ชธ๋ฌด๊ฒ : [kg]) ๋์ฌ์ฆํ๊ตฐ ๊ฐ๋ฅ์ฑ : ์์ถ๊ธฐ ํ์๊ณผ ์ด์๊ธฐ ํ์ ์ฐจ์ด ์ฐธ๊ณ age / 365 ๋ฅผ ํตํด ๋์ด๋ก ๋ง์ถ๊ธฐ 2) ์์๋ผ์ด์ด๊ฐ ์๋ ํน์ฑ์ด ์๋ค๋ฉด, ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ ์ ์์๊น์? ์ด ๋ถ๋ถ์ด ๋๋ฉ์ธ ์ง์๊ณผ ์ฐ๊ด์ด ํฐ ๊ฒ ๊ฐ์ต๋๋ค. ๋จผ์ boxplot๊ณผ ๊ฐ์ ์๊ฐํ ์๋ฃ๋ฅผ ํตํด์ ์ด์์น์ ์ ๋ฌด๋ฅผ ํ์ธ ํต๊ณ์น์ ๊ธฐ๋ฐํด์ ์์ ๋ฐ ํ์ %์ ๊ฐ์ ์ ๊ฑฐ ํน์ ๋๋ฉ์ธ ์ง์์ ๋์ ํด์ ์ด์์น์ ๋ํ ๊ธฐ์ค์ ์ก๊ณ ์ ๊ฑฐ ๊ณผ์ ์ ์์์์ ์ ๊ฐ์ ๊ฒฝ์ฐ๋ ๋จ์ํ ํต๊ณ์น๋ก ํ๊ฒ ๋๋ ๋ชธ๋ฌด๊ฒ๊ฐ 100kg๋ง ๋์ด๊ฐ๋ ์ ๊ฑฐ๊ฐ ๋์ด๋ฒ๋ ค์ ๋ฐ๋ก ๋๋ฉ์ธ ์ง์์ ์์น ํน์ ์์์ (๊ต์ฅํ ์ฃผ๊ด..
Kaggle_House Sales in King County, USA
์ผ๊ธ 0. ๋ค์ด๊ฐ๊ธฐ ์ Data fields ID : ์ง์ ๊ตฌ๋ถํ๋ ๋ฒํธ date : ์ง์ ๊ตฌ๋งคํ ๋ ์ง price : ์ง์ ๊ฐ๊ฒฉ(Target variable) bedrooms : ์นจ์ค์ ์ bathrooms : ํ์ฅ์ค์ ์ sqft_living : ์ฃผ๊ฑฐ ๊ณต๊ฐ์ ํ๋ฐฉ ํผํธ(๋ฉด์ ) sqft_lot : ๋ถ์ง์ ํ๋ฐฉ ํผํธ(๋ฉด์ ) floors : ์ง์ ์ธต ์ waterfront : ์ง์ ์ ๋ฐฉ์ ๊ฐ์ด ํ๋ฅด๋์ง ์ ๋ฌด (a.k.a. ๋ฆฌ๋ฒ๋ทฐ) view : ์ง์ด ์ผ๋ง๋ ์ข์ ๋ณด์ด๋์ง์ ์ ๋ condition : ์ง์ ์ ๋ฐ์ ์ธ ์ํ grade : King County grading ์์คํ ๊ธฐ์ค์ผ๋ก ๋งค๊ธด ์ง์ ๋ฑ๊ธ sqft_above : ์งํ์ค์ ์ ์ธํ ํ๋ฐฉ ํผํธ(๋ฉด์ ) sqft_basement : ์งํ์ค์ ํ๋ฐฉ ํผํธ(๋ฉด์ )..
Simple Linear Regression(๋จ์์ ํํ๊ท)
1. ๋จ์์ ํํ๊ท๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ์ ์ ๋์ด์ผ ํ๋ ์กฐ๊ฑด๋ค์ ๋ํด ์ฐพ์๋ณด์๊ณ ๋ ผํด๋ณด์ธ์. ๋ ๋ณ์๊ฐ ์ ํ๊ด๊ณ์ ์์ด์ผ ํฉ๋๋ค. ํ๋ณธ ์ถ์ถ์ด ๋ฌด์์๋ก ์ด๋ค์ ธ์ผ ํฉ๋๋ค. ์ง์ ์ ๊ทธ๋ฆฌ๊ธฐ ์ํด ์ต์ 2๊ฐ ์ด์์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผํฉ๋๋ค. ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ์ ํ๊ท ์ 0์ ๋ง์กฑํฉ๋๋ค.(Zero-conditional mean) ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ๋ค์ ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ค์ผ ํฉ๋๋ค.(Normality ; ์ ๊ท์ฑ) ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ๋ค์ด ๊ฐ์ ์ ๋๋ก ํผ์ ธ ์์ด์ผ ํฉ๋๋ค.(homoscedasticity ; ๋ฑ๋ถ์ฐ์ฑ) ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจํญ๋ค๋ผ๋ฆฌ๋ ๋ ๋ฆฝ์ด์ด์ผ ํฉ๋๋ค.(Independence ; ๋ ๋ฆฝ์ฑ) ์์ ์ ์ ๋ฅผ ์กฐ๊ธ ๋ ์์ธํ ์ดํด๋ณด์๋ฉด ์์ ๊ฐ์ ๊ทธ๋ฆผ์์ ๋ชจ๋ ์ ์ ์ง๋๋ ์ง์ ์ ๊ทธ์ ์๋ ์์ง๋ง ์ด๋ค ์ง์ ์ ๊ธฐ์ค์ผ๋ก ..