Jayden`s

    [TIL]25.Ridge Regression(๋Šฅํ˜• ํšŒ๊ท€)

    ๋ชฉํ‘œ ๋ฒ”์ฃผํ˜•(Categorical) ์ž๋ฃŒ๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ One-hot encoding ๊ธฐ๋ฒ• ์ดํ•ด Ridge ํšŒ๊ท€๋ฅผ ํ†ตํ•œ ํŠน์„ฑ ์„ ํƒ(Feature selection)๊ณผ์ • ์ดํ•ด('์ผ๋ฐ˜ํ™”'์˜ ๊ด€์ ์—์„œ) ์ •๊ทœํ™”(Regularization)์„ ์œ„ํ•œ Ridge ํšŒ๊ท€ ๋ชจ๋ธ์„ ์ดํ•ด One-hot encoding ์ด์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ์— ๋ฌธ์ž์—ด(string)์ด ์กด์žฌํ•  ๋•Œ, ์—ฌ๊ธฐ์„œ City ์ปฌ๋Ÿผ์˜ ๋„์‹œ ์ง€์—ญ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ณ€์ˆ˜๋Š” ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜ ๋ฒ”์ฃผํ˜• ์ž๋ฃŒ๋Š” ๋ช…๋ชฉํ˜•(nominal; ์ˆœ์„œ๊ฐ€ ์—†์Œ)๊ณผ ์ˆœ์„œํ˜•(ordinal; ์ˆœ์„œ๊ฐ€ ์žˆ์Œ)๋กœ ๋‚˜๋‰˜์–ด์ง ์œ„์˜ ์˜ˆ์‹œ์—์„œ ๋„์‹œ๋Š” ๋†’๊ณ  ๋‚ฎ์Œ์ด ์—†๊ณ  ์šฐ์„ ์ˆœ์œ„์ด ๋‹จ์ง€ ๊ตฌ๋ถ„๋งŒ ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋ช…๋ชฉํ˜• one-hot encoding ๋ชจ์‹๋„ pandas์˜ get_dummies ์ด์šฉ df_oh = pd.get_dumm..

    [TIL]24.๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€(Multiple Linear Regression)

    ๋ชฉํ‘œ ๋จธ์‹ ๋Ÿฌ๋‹๋ชจ๋ธ๋ง ์‹œ train/test ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌํ•ด์•ผํ•˜๋Š” ์ด์œ ๋ฅผ ์•Œ๊ธฐ ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€ ์ดํ•ด '์ผ๋ฐ˜ํ™”' ๊ด€์ ์—์„œ ๊ณผ์ ํ•ฉ ๋ฐ ๊ณผ์†Œ์ ํ•ฉ ์ดํ•ด '์ผ๋ฐ˜ํ™”' ๊ด€์ ์—์„œ ํŽธํ–ฅ ๋ฐ ๋ถ„์‚ฐ์˜ ํŠธ๋ ˆ์ด๋“œ ์˜คํ”„ ๊ฐœ๋… ์ดํ•ด train/test ๋ฐ์ดํ„ฐ ๋‚˜๋ˆ„๊ธฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ/๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋ˆ„์–ด์•ผ ์šฐ๋ฆฌ๊ฐ€ ๋งŒ๋“  ๋ชจ๋ธ์˜ ์—์ธก ์„ฑ๋Šฅ์„ ์ œ๋Œ€๋กœ ํ‰๊ฐ€ ๊ฐ€๋Šฅ ๋ชจ๋ธ๋ง์˜ ๋ชฉ์ ์€ 'train data'๋ฅผ ์ž˜ ๋งž์ถ”๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ›ˆ๋ จ์— ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” 'test data'๋ฅผ ์ด์šฉํ•ด์„œ ์–ผ๋งˆ๋‚˜ ์ •๋‹ต์„ ๋‚ด๋Š๋ƒ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•์—” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์ง€๋งŒ ์šฐ์„  ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.(train์ด 75%, test๊ฐ€ 25%) train = df.sample(frac=0.75, random_state=1) te..

    Kaggle_House Sales in King County, USA

    ์ผ€๊ธ€ 0. ๋“ค์–ด๊ฐ€๊ธฐ ์ „ Data fields ID : ์ง‘์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฒˆํ˜ธ date : ์ง‘์„ ๊ตฌ๋งคํ•œ ๋‚ ์งœ price : ์ง‘์˜ ๊ฐ€๊ฒฉ(Target variable) bedrooms : ์นจ์‹ค์˜ ์ˆ˜ bathrooms : ํ™”์žฅ์‹ค์˜ ์ˆ˜ sqft_living : ์ฃผ๊ฑฐ ๊ณต๊ฐ„์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) sqft_lot : ๋ถ€์ง€์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) floors : ์ง‘์˜ ์ธต ์ˆ˜ waterfront : ์ง‘์˜ ์ „๋ฐฉ์— ๊ฐ•์ด ํ๋ฅด๋Š”์ง€ ์œ ๋ฌด (a.k.a. ๋ฆฌ๋ฒ„๋ทฐ) view : ์ง‘์ด ์–ผ๋งˆ๋‚˜ ์ข‹์•„ ๋ณด์ด๋Š”์ง€์˜ ์ •๋„ condition : ์ง‘์˜ ์ „๋ฐ˜์ ์ธ ์ƒํƒœ grade : King County grading ์‹œ์Šคํ…œ ๊ธฐ์ค€์œผ๋กœ ๋งค๊ธด ์ง‘์˜ ๋“ฑ๊ธ‰ sqft_above : ์ง€ํ•˜์‹ค์„ ์ œ์™ธํ•œ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ ) sqft_basement : ์ง€ํ•˜์‹ค์˜ ํ‰๋ฐฉ ํ”ผํŠธ(๋ฉด์ )..

    '21.12.20(์›”)_๋งค์ผ ๊ฒฝ์ œ

    ๋งค๊ฒฝ, ์ „๋ฌธ๊ฐ€ 50์ธ ์„ค๋ฌธ์กฐ์‚ฌ '์ƒˆ ์ •๋ถ€๊ฐ€ ์‹œ๊ธ‰ํžˆ ํŽผ์ณ์•ผ ํ•˜๋Š” ์ •์ฑ…' ์–‘๋„์„ธ, ์ข…๋ถ€์„ธ(์ข…ํ•ฉ๋ถ€๋™์‚ฐ์„ธ) ๋“ฑ ์„ธ๊ธˆ ๋ถ€๋‹ด ์™„ํ™” 66์  ์žฌ๊ฑด์ถ•, ์žฌ๊ฐœ๋ฐœ ๊ทœ์ œ ์™„ํ™” 64์  ์ฃผํƒ ๊ณต๊ธ‰ ํ™•๋Œ€ 60์  ์ž„๋Œ€์ฐจ 3๋ฒ• ํ์ง€ 40์  ๋Œ€์ถœ ๊ทœ์ œ ์™„ํ™” 38์  ๋‚ด๋…„ ๋Œ€์„  ์ด์Šˆ๋กœ ์ธํ•ด์„œ(์‚ฌ์‹ค ์ง€๊ธˆ ํ›„๋ณด์ž๋“ค์˜ ๊ณต์•ฝ๋ถ€ํ„ฐ๊ฐ€ ์‹œ์ž‘) ๋ถ€๋™์‚ฐ ์‹œ์žฅ ์ž์ฒด๋Š” ํฐ ์ด์Šˆ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. ์Œ์˜ ์˜ํ–ฅ์ผ์ง€ ์–‘์˜ ์˜ํ–ฅ์ผ์ง€๋Š” ์•„๋ฌด๋„ ๋ชจ๋ฅด์ง€๋งŒ, ๋‹จ์ˆœํ•˜๊ฒŒ ์‚ฌ๋žŒ๋“ค์˜ ๊ด€์‹ฌ์ด ํ–ฅํ•˜๊ฒŒ ๋˜๋ฉด ์ผ๋‹จ์€ ์ƒ์Šน์ชฝ์ผ ๊ฒƒ ๊ฐ™์€๋ฐ......(๊ด€์‹ฌ์ด ๋Š˜ ์ˆ˜์š”์™€ ๋น„๋ก€ํ•˜์ง„ ์•Š์ง€๋งŒ) ํƒ„์†Œ์ค‘๋ฆฝ ๋ชฉํ‘œ ๋งž์ถ”๋ ค, ํ•œ์ „ ํ•ด์™ธ์‚ฌ์—… ์ ˆ๋ฐ˜ ์ค„์ธ๋‹ค(๋‹จ, ์‹ ์žฌ์ƒ ๋ฐœ์ „์€ 2026๋…„๊นŒ์ง€ 2๋ฐฐ๋กœ) 2050๋…„ ํƒ„์†Œ์ค‘๋ฆฝ ์‹คํ˜„์œ„ํ•ด ํ•ด์™ธ๋งค์ถœ 57% ์ฐจ์ง€ ์„ํƒ„๋ฐœ์ „ 5๋…„๋’ค๊นŒ์ง€ ๋น„์ค‘ 30%๋กœ ๋‚ฎ์ถ”๊ธฐ๋กœ ํ™˜๊ฒฝ์„ ์ƒ๊ฐํ•˜..

    [TIL]23.Simple Regression(๋‹จ์ˆœํšŒ๊ท€)

    ์„ ํ˜•ํšŒ๊ท€ ๋ชฉ์  ์„ ํ˜•ํšŒ๊ท€๋ชจ๋ธ ์ดํ•ด ์ง€๋„ํ•™์Šต(Supervised Learning) ์ดํ•ด ํšŒ๊ท€๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ธฐ์ค€๋ชจ๋ธ์„ ์„ค์ • Scikit-learn์„ ์ด์šฉํ•œ ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ ์ฃผํƒ ํŒ๋งค ๊ฐ€๊ฒฉ ์˜ˆ์ธก import pandas as pd # ์ฃผ์–ด์ง„ url ์ฃผ์†Œ๋ฅผ ์ด์šฉํ•ด house prices ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/house-prices/house_prices_train.csv') df_t = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/house-prices/house_prices_test.csv') df๋Š” tr..