๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

    ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ํ™•์ธํ•œ Imputer์˜ ์ฐจ์ด

    2๊ฐœ ์ด์ƒ์˜ imputer๋ฅผ ์‚ฌ์šฉํ•ด ๊ฐ๊ฐ ํŠน์„ฑ-ํƒ€๊ฒŸ ๊ด€๊ณ„ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค ๊ณต์œ ํ•˜๊ณ  ๋‹ค์Œ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์„œ๋กœ ๋…ผ์˜ํ•ด ๋ณด์„ธ์š”. ๋จผ์ € ํŠน์„ฑ์ค‘์š”๋„์—์„œ ๊ฐ€์žฅ ์ค‘์š”๋„๊ฐ€ ๋†’๊ฒŒ ๋‚˜์˜จ 'doctor_recc_h1n1' ํŠน์„ฑ์— ๋Œ€ํ•ด์„œ๋งŒ Imputer ๋ณ€๊ฒฝ์— ๋”ฐ๋ฅธ ํƒ€๊ฒŸ์™€์˜ ๊ด€๊ณ„ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค๋ณด์•˜์Šต๋‹ˆ๋‹ค. seaborn plots ์‚ฌ์šฉํ•˜์—ฌ ๊ด€์‹ฌ์žˆ๋Š” ํŠน์„ฑ๋“ค๊ณผ target๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ด ๋ณด์„ธ์š”. Imputer๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์•˜์„ ๋•Œ ๋ณ€์ˆ˜์™€ ํƒ€๊ฒŸ ๋ชจ๋‘ binaryํ•œ ๊ฐ’์œผ๋กœ 0๊ณผ 1์— ๋Œ€ํ•œ ๊ฐ’๋“ค๋งŒ ์ฐํžˆ๋Š” ๊ฒƒ์ด ๋ณด์ž…๋‹ˆ๋‹ค. SimpleImputer(strategy='mean') ์ ์šฉ ์‹œ imputer1 = SimpleImputer(strategy='mean') train_imp1 = im..

    Ridge regression, ๋ชจ๋ธ ์„ฑ๊ณผ ํ‰๊ฐ€ ์ง€ํ‘œ, OneHotencoding, feature selection

    1) ๋ณธ์ธ๋งŒ์˜ ์•„์ด๋””์–ด๋กœ best ridge regression model์„ ๋งŒ๋“ค์–ด ์„œ๋กœ ๊ณต์œ ํ•˜์‹œ๊ณ  ํ† ๋ก ํ•ด ๋ณด์„ธ์š”. ์–ด๋–ค ํŠน์„ฑ๊ณตํ•™์„ ์‚ฌ์šฉํ–ˆ๊ณ , ๊ทธ ์ด์œ ์™€ ๊ธฐ๋Œ€ํšจ๊ณผ๋Š” ๋ฌด์—‡์ด์—ˆ๋‚˜์š”? ์ฒ˜์Œ ๋ณ€์ˆ˜๋Š” 'Rooms, Type, Price, Method, Postcode, Regionname, Propertycount, Distance, CouncilArea' ์ž…๋‹ˆ๋‹ค. ์ด ์ค‘ OneHotencoding์„ ์—ผ๋‘์— ๋‘๊ณ  unique ๊ฐ’์ด ๋„ˆ๋ฌด ๋งŽ๋‹ค๊ณ  ํŒ๋‹จํ•œ ๋ณ€์ˆ˜๋Š” drop ํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ 'Postcode' ๊ฐ™์€ ๊ฒฝ์šฐ ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ์ธ๋ฐ ๊ทธ ์ˆœ์„œ(ํฌ๊ธฐ)๊ฐ€ ์˜๋ฏธ๊ฐ€ ์—†์„ ๊ฒƒ์ด๋ผ ํŒ๋‹จํ–ˆ๊ณ  ์ฐจ๋ผ๋ฆฌ Regionname์„ ์›ํ•ซ์ธ์ฝ”๋”ฉ์„ ํ†ตํ•ด ๊ทธ ์ง€์—ญ์— ๋Œ€ํ•œ ๋ณ€์ˆ˜๋กœ ๋Œ€์ž…ํ•ด์ฃผ๋Š” ๊ฒŒ ์˜ณ๋‹ค ์ƒ๊ฐํ•˜์—ฌ dropํ•˜์˜€..

    ์ƒˆ๋กœ์šด ํŠน์„ฑ(ํŠน์„ฑ๊ณตํ•™), ์ด์ƒ์น˜, Scaler, ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ

    1) ์ƒˆ๋กœ์šด ํŠน์„ฑ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์–ด๋–ค ํŠน์„ฑ๊ณตํ•™์„ ํ•ด ๋ณผ ์ˆ˜ ์žˆ์„๊นŒ์š”? BMI(๋น„๋งŒ์ง€์ˆ˜) = ๋ชธ๋ฌด๊ฒŒ / ํ‚ค^2 (ํ‚ค : [m], ๋ชธ๋ฌด๊ฒŒ : [kg]) ๋Œ€์‚ฌ์ฆํ›„๊ตฐ ๊ฐ€๋Šฅ์„ฑ : ์ˆ˜์ถ•๊ธฐ ํ˜ˆ์••๊ณผ ์ด์™„๊ธฐ ํ˜ˆ์•• ์ฐจ์ด ์ฐธ๊ณ  age / 365 ๋ฅผ ํ†ตํ•ด ๋‚˜์ด๋กœ ๋งž์ถ”๊ธฐ 2) ์•„์›ƒ๋ผ์ด์–ด๊ฐ€ ์žˆ๋Š” ํŠน์„ฑ์ด ์žˆ๋‹ค๋ฉด, ์–ด๋–ค ๊ธฐ์ค€์œผ๋กœ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ด ๋ถ€๋ถ„์ด ๋„๋ฉ”์ธ ์ง€์‹๊ณผ ์—ฐ๊ด€์ด ํฐ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋จผ์ € boxplot๊ณผ ๊ฐ™์€ ์‹œ๊ฐํ™” ์ž๋ฃŒ๋ฅผ ํ†ตํ•ด์„œ ์ด์ƒ์น˜์˜ ์œ ๋ฌด๋ฅผ ํ™•์ธ ํ†ต๊ณ„์น˜์— ๊ธฐ๋ฐ˜ํ•ด์„œ ์ƒ์œ„ ๋ฐ ํ•˜์œ„ %์˜ ๊ฐ’์„ ์ œ๊ฑฐ ํ˜น์€ ๋„๋ฉ”์ธ ์ง€์‹์„ ๋„์ž…ํ•ด์„œ ์ด์ƒ์น˜์— ๋Œ€ํ•œ ๊ธฐ์ค€์„ ์žก๊ณ  ์ œ๊ฑฐ ๊ณผ์ œ์˜ ์˜ˆ์‹œ์—์„œ ์ €๊ฐ™์€ ๊ฒฝ์šฐ๋Š” ๋‹จ์ˆœํžˆ ํ†ต๊ณ„์น˜๋กœ ํ•˜๊ฒŒ ๋˜๋‹ˆ ๋ชธ๋ฌด๊ฒŒ๊ฐ€ 100kg๋งŒ ๋„˜์–ด๊ฐ€๋„ ์ œ๊ฑฐ๊ฐ€ ๋˜์–ด๋ฒ„๋ ค์„œ ๋”ฐ๋กœ ๋„๋ฉ”์ธ ์ง€์‹์„ ์„œ์น˜ ํ˜น์€ ์ƒ์‹์„ (๊ต‰์žฅํžˆ ์ฃผ๊ด€..

    Kaggle_House Sales in King County, USA

    ์ผ€๊ธ€ 0. ๋“ค์–ด๊ฐ€๊ธฐ ์ „ Data fields ID : ์ง‘์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฒˆํ˜ธ date : ์ง‘์„ ๊ตฌ๋งคํ•œ ๋‚ ์งœ price : ์ง‘์˜ ๊ฐ€๊ฒฉ(Target variable) bedrooms : ์นจ์‹ค์˜ ์ˆ˜ bathrooms : ํ™”์žฅ์‹ค์˜ ์ˆ˜ sqft_living : ์ฃผ๊ฑฐ ๊ณต๊ฐ„์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) sqft_lot : ๋ถ€์ง€์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) floors : ์ง‘์˜ ์ธต ์ˆ˜ waterfront : ์ง‘์˜ ์ „๋ฐฉ์— ๊ฐ•์ด ํ๋ฅด๋Š”์ง€ ์œ ๋ฌด (a.k.a. ๋ฆฌ๋ฒ„๋ทฐ) view : ์ง‘์ด ์–ผ๋งˆ๋‚˜ ์ข‹์•„ ๋ณด์ด๋Š”์ง€์˜ ์ •๋„ condition : ์ง‘์˜ ์ „๋ฐ˜์ ์ธ ์ƒํƒœ grade : King County grading ์‹œ์Šคํ…œ ๊ธฐ์ค€์œผ๋กœ ๋งค๊ธด ์ง‘์˜ ๋“ฑ๊ธ‰ sqft_above : ์ง€ํ•˜์‹ค์„ ์ œ์™ธํ•œ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) sqft_basement : ์ง€ํ•˜์‹ค์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ )..

    Simple Linear Regression(๋‹จ์ˆœ์„ ํ˜•ํšŒ๊ท€)

    1. ๋‹จ์ˆœ์„ ํ˜•ํšŒ๊ท€๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ „์ œ๋˜์–ด์•ผ ํ•˜๋Š” ์กฐ๊ฑด๋“ค์— ๋Œ€ํ•ด ์ฐพ์•„๋ณด์‹œ๊ณ  ๋…ผํ•ด๋ณด์„ธ์š”. ๋‘ ๋ณ€์ˆ˜๊ฐ€ ์„ ํ˜•๊ด€๊ณ„์— ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ‘œ๋ณธ ์ถ”์ถœ์ด ๋ฌด์ž‘์œ„๋กœ ์ด๋ค„์ ธ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ง์„ ์„ ๊ทธ๋ฆฌ๊ธฐ ์œ„ํ•ด ์ตœ์†Œ 2๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์–ด์•ผํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ X๊ฐ’์—์„œ ์˜ค์ฐจ์˜ ํ‰๊ท ์€ 0์„ ๋งŒ์กฑํ•ฉ๋‹ˆ๋‹ค.(Zero-conditional mean) ์ฃผ์–ด์ง„ X๊ฐ’์—์„œ ์˜ค์ฐจ๋“ค์€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ์ด๋ค„์•ผ ํ•ฉ๋‹ˆ๋‹ค.(Normality ; ์ •๊ทœ์„ฑ) ์ฃผ์–ด์ง„ X๊ฐ’์—์„œ ์˜ค์ฐจ๋“ค์ด ๊ฐ™์€ ์ •๋„๋กœ ํผ์ ธ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.(homoscedasticity ; ๋“ฑ๋ถ„์‚ฐ์„ฑ) ์ฃผ์–ด์ง„ X๊ฐ’์—์„œ ์˜ค์ฐจํ•ญ๋“ค๋ผ๋ฆฌ๋Š” ๋…๋ฆฝ์ด์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.(Independence ; ๋…๋ฆฝ์„ฑ) ์œ„์˜ ์ „์ œ๋ฅผ ์กฐ๊ธˆ ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณด์ž๋ฉด ์œ„์™€ ๊ฐ™์€ ๊ทธ๋ฆผ์—์„œ ๋ชจ๋“  ์ ์„ ์ง€๋‚˜๋Š” ์ง์„ ์„ ๊ทธ์„ ์ˆ˜๋Š” ์—†์ง€๋งŒ ์–ด๋–ค ์ง์„ ์„ ๊ธฐ์ค€์œผ๋กœ ..