Jayden`s
[TIL]25.Ridge Regression(๋ฅํ ํ๊ท)
๋ชฉํ ๋ฒ์ฃผํ(Categorical) ์๋ฃ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํ One-hot encoding ๊ธฐ๋ฒ ์ดํด Ridge ํ๊ท๋ฅผ ํตํ ํน์ฑ ์ ํ(Feature selection)๊ณผ์ ์ดํด('์ผ๋ฐํ'์ ๊ด์ ์์) ์ ๊ทํ(Regularization)์ ์ํ Ridge ํ๊ท ๋ชจ๋ธ์ ์ดํด One-hot encoding ์ด์ฒ๋ผ ๋ฐ์ดํฐ์ ๋ฌธ์์ด(string)์ด ์กด์ฌํ ๋, ์ฌ๊ธฐ์ City ์ปฌ๋ผ์ ๋์ ์ง์ญ์ ๋ํ๋ด๋ ๋ณ์๋ ๋ฒ์ฃผํ ๋ณ์ ๋ฒ์ฃผํ ์๋ฃ๋ ๋ช ๋ชฉํ(nominal; ์์๊ฐ ์์)๊ณผ ์์ํ(ordinal; ์์๊ฐ ์์)๋ก ๋๋์ด์ง ์์ ์์์์ ๋์๋ ๋๊ณ ๋ฎ์์ด ์๊ณ ์ฐ์ ์์์ด ๋จ์ง ๊ตฌ๋ถ๋ง ๋๊ธฐ ๋๋ฌธ์ ๋ช ๋ชฉํ one-hot encoding ๋ชจ์๋ pandas์ get_dummies ์ด์ฉ df_oh = pd.get_dumm..
[TIL]24.๋ค์ค์ ํํ๊ท(Multiple Linear Regression)
๋ชฉํ ๋จธ์ ๋ฌ๋๋ชจ๋ธ๋ง ์ train/test ๋ฐ์ดํฐ ๋ถ๋ฆฌํด์ผํ๋ ์ด์ ๋ฅผ ์๊ธฐ ๋ค์ค์ ํํ๊ท ์ดํด '์ผ๋ฐํ' ๊ด์ ์์ ๊ณผ์ ํฉ ๋ฐ ๊ณผ์์ ํฉ ์ดํด '์ผ๋ฐํ' ๊ด์ ์์ ํธํฅ ๋ฐ ๋ถ์ฐ์ ํธ๋ ์ด๋ ์คํ ๊ฐ๋ ์ดํด train/test ๋ฐ์ดํฐ ๋๋๊ธฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ/๊ฒ์ฆ ๋ฐ์ดํฐ๋ก ๋๋์ด์ผ ์ฐ๋ฆฌ๊ฐ ๋ง๋ ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ์ ๋๋ก ํ๊ฐ ๊ฐ๋ฅ ๋ชจ๋ธ๋ง์ ๋ชฉ์ ์ 'train data'๋ฅผ ์ ๋ง์ถ๋ ๊ฒ์ด ์๋๋ผ, ํ๋ จ์ ์ฌ์ฉํ์ง ์๋ 'test data'๋ฅผ ์ด์ฉํด์ ์ผ๋ง๋ ์ ๋ต์ ๋ด๋๋ ๋๋๋ ๋ฐฉ๋ฒ์ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์์ง๋ง ์ฐ์ ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ด ์๋ค.(train์ด 75%, test๊ฐ 25%) train = df.sample(frac=0.75, random_state=1) te..
Kaggle_House Sales in King County, USA
์ผ๊ธ 0. ๋ค์ด๊ฐ๊ธฐ ์ Data fields ID : ์ง์ ๊ตฌ๋ถํ๋ ๋ฒํธ date : ์ง์ ๊ตฌ๋งคํ ๋ ์ง price : ์ง์ ๊ฐ๊ฒฉ(Target variable) bedrooms : ์นจ์ค์ ์ bathrooms : ํ์ฅ์ค์ ์ sqft_living : ์ฃผ๊ฑฐ ๊ณต๊ฐ์ ํ๋ฐฉ ํผํธ(๋ฉด์ ) sqft_lot : ๋ถ์ง์ ํ๋ฐฉ ํผํธ(๋ฉด์ ) floors : ์ง์ ์ธต ์ waterfront : ์ง์ ์ ๋ฐฉ์ ๊ฐ์ด ํ๋ฅด๋์ง ์ ๋ฌด (a.k.a. ๋ฆฌ๋ฒ๋ทฐ) view : ์ง์ด ์ผ๋ง๋ ์ข์ ๋ณด์ด๋์ง์ ์ ๋ condition : ์ง์ ์ ๋ฐ์ ์ธ ์ํ grade : King County grading ์์คํ ๊ธฐ์ค์ผ๋ก ๋งค๊ธด ์ง์ ๋ฑ๊ธ sqft_above : ์งํ์ค์ ์ ์ธํ ํ๋ฐฉ ํผํธ(๋ฉด์ ) sqft_basement : ์งํ์ค์ ํ๋ฐฉ ํผํธ(๋ฉด์ )..
'21.12.20(์)_๋งค์ผ ๊ฒฝ์
๋งค๊ฒฝ, ์ ๋ฌธ๊ฐ 50์ธ ์ค๋ฌธ์กฐ์ฌ '์ ์ ๋ถ๊ฐ ์๊ธํ ํผ์ณ์ผ ํ๋ ์ ์ฑ ' ์๋์ธ, ์ข ๋ถ์ธ(์ข ํฉ๋ถ๋์ฐ์ธ) ๋ฑ ์ธ๊ธ ๋ถ๋ด ์ํ 66์ ์ฌ๊ฑด์ถ, ์ฌ๊ฐ๋ฐ ๊ท์ ์ํ 64์ ์ฃผํ ๊ณต๊ธ ํ๋ 60์ ์๋์ฐจ 3๋ฒ ํ์ง 40์ ๋์ถ ๊ท์ ์ํ 38์ ๋ด๋ ๋์ ์ด์๋ก ์ธํด์(์ฌ์ค ์ง๊ธ ํ๋ณด์๋ค์ ๊ณต์ฝ๋ถํฐ๊ฐ ์์) ๋ถ๋์ฐ ์์ฅ ์์ฒด๋ ํฐ ์ด์๊ฐ ๋ ๊ฒ์ด๋ค. ์์ ์ํฅ์ผ์ง ์์ ์ํฅ์ผ์ง๋ ์๋ฌด๋ ๋ชจ๋ฅด์ง๋ง, ๋จ์ํ๊ฒ ์ฌ๋๋ค์ ๊ด์ฌ์ด ํฅํ๊ฒ ๋๋ฉด ์ผ๋จ์ ์์น์ชฝ์ผ ๊ฒ ๊ฐ์๋ฐ......(๊ด์ฌ์ด ๋ ์์์ ๋น๋กํ์ง ์์ง๋ง) ํ์์ค๋ฆฝ ๋ชฉํ ๋ง์ถ๋ ค, ํ์ ํด์ธ์ฌ์ ์ ๋ฐ ์ค์ธ๋ค(๋จ, ์ ์ฌ์ ๋ฐ์ ์ 2026๋ ๊น์ง 2๋ฐฐ๋ก) 2050๋ ํ์์ค๋ฆฝ ์คํ์ํด ํด์ธ๋งค์ถ 57% ์ฐจ์ง ์ํ๋ฐ์ 5๋ ๋ค๊น์ง ๋น์ค 30%๋ก ๋ฎ์ถ๊ธฐ๋ก ํ๊ฒฝ์ ์๊ฐํ..
[TIL]23.Simple Regression(๋จ์ํ๊ท)
์ ํํ๊ท ๋ชฉ์ ์ ํํ๊ท๋ชจ๋ธ ์ดํด ์ง๋ํ์ต(Supervised Learning) ์ดํด ํ๊ท๋ชจ๋ธ์ ๋ํ ๊ธฐ์ค๋ชจ๋ธ์ ์ค์ Scikit-learn์ ์ด์ฉํ ์ ํ ํ๊ท ๋ชจ๋ธ ์ฃผํ ํ๋งค ๊ฐ๊ฒฉ ์์ธก import pandas as pd # ์ฃผ์ด์ง url ์ฃผ์๋ฅผ ์ด์ฉํด house prices ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ต๋๋ค. df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/house-prices/house_prices_train.csv') df_t = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/house-prices/house_prices_test.csv') df๋ tr..