Jayden`s
[TIL]27.Section2_sprint1 challenge
linear regression multiple regression ridge regression logistic regression ํฐ ๊ณจ์๋ ์์ ๊ฐ์ ๋ชจ๋ธ๋ค์ ๋ฐฐ์ ๋ค. ํ๊ท์ ๋ถ๋ฅ์ ๋ฐ๋ผ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ด ๋ค๋ฅด๊ณ ๋ชจ๋ธ์ ๋ฐ๋ผ ํ๊ฐ์งํ๊ฐ ๋ค๋ฅด๊ณ ๊ทธ ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ฅผ ๋์ ํ๊ธฐ ์ train, validate, test set์ ๊ตฌ๋ถํ๊ณ ๊ทธ ๋ฐ์ดํฐ์ ๋ํด OneHot encoding, scaling, polynomial ๋ฑ๋ฑ ๋ค์ํ ์ธ์ฝ๋๋ค์ด ์๋ค. ๋ํ ๊ฐ ๋ชจ๋ธ๋ค์ ๋ฐ๋ผ ์กฐ์ ํ ์ ์๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ์์๋ค. ์ด๋ฒ ์ฃผ์ ๋๋ ๊ฒ์ ๋จธ์ ๋ฌ๋ ์์ฒด๋ ๋๋ฌด ์ฌ๋ฏธ์๋ค. ๋ค๋ง, Section 1 ์์ ํ์ตํ EDA, Feature Engineering์ด ์ผ๋ง๋ ์ค๋ฌด์์ ์ค์ํ์ง ๋๋ ์ ์์๋ค. ํต๊ณ์ , ์๊ฐํ,..
Ridge regression, ๋ชจ๋ธ ์ฑ๊ณผ ํ๊ฐ ์งํ, OneHotencoding, feature selection
1) ๋ณธ์ธ๋ง์ ์์ด๋์ด๋ก best ridge regression model์ ๋ง๋ค์ด ์๋ก ๊ณต์ ํ์๊ณ ํ ๋ก ํด ๋ณด์ธ์. ์ด๋ค ํน์ฑ๊ณตํ์ ์ฌ์ฉํ๊ณ , ๊ทธ ์ด์ ์ ๊ธฐ๋ํจ๊ณผ๋ ๋ฌด์์ด์๋์? ์ฒ์ ๋ณ์๋ 'Rooms, Type, Price, Method, Postcode, Regionname, Propertycount, Distance, CouncilArea' ์ ๋๋ค. ์ด ์ค OneHotencoding์ ์ผ๋์ ๋๊ณ unique ๊ฐ์ด ๋๋ฌด ๋ง๋ค๊ณ ํ๋จํ ๋ณ์๋ drop ํด์ฃผ์์ต๋๋ค. ๋ 'Postcode' ๊ฐ์ ๊ฒฝ์ฐ ์ซ์ํ ๋ฐ์ดํฐ์ธ๋ฐ ๊ทธ ์์(ํฌ๊ธฐ)๊ฐ ์๋ฏธ๊ฐ ์์ ๊ฒ์ด๋ผ ํ๋จํ๊ณ ์ฐจ๋ผ๋ฆฌ Regionname์ ์ํซ์ธ์ฝ๋ฉ์ ํตํด ๊ทธ ์ง์ญ์ ๋ํ ๋ณ์๋ก ๋์ ํด์ฃผ๋ ๊ฒ ์ณ๋ค ์๊ฐํ์ฌ dropํ์..
์๋ก์ด ํน์ฑ(ํน์ฑ๊ณตํ), ์ด์์น, Scaler, ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์
1) ์๋ก์ด ํน์ฑ์ ๋ง๋ค ์ ์๋ค๋ฉด, ์ด๋ค ํน์ฑ๊ณตํ์ ํด ๋ณผ ์ ์์๊น์? BMI(๋น๋ง์ง์) = ๋ชธ๋ฌด๊ฒ / ํค^2 (ํค : [m], ๋ชธ๋ฌด๊ฒ : [kg]) ๋์ฌ์ฆํ๊ตฐ ๊ฐ๋ฅ์ฑ : ์์ถ๊ธฐ ํ์๊ณผ ์ด์๊ธฐ ํ์ ์ฐจ์ด ์ฐธ๊ณ age / 365 ๋ฅผ ํตํด ๋์ด๋ก ๋ง์ถ๊ธฐ 2) ์์๋ผ์ด์ด๊ฐ ์๋ ํน์ฑ์ด ์๋ค๋ฉด, ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ ์ ์์๊น์? ์ด ๋ถ๋ถ์ด ๋๋ฉ์ธ ์ง์๊ณผ ์ฐ๊ด์ด ํฐ ๊ฒ ๊ฐ์ต๋๋ค. ๋จผ์ boxplot๊ณผ ๊ฐ์ ์๊ฐํ ์๋ฃ๋ฅผ ํตํด์ ์ด์์น์ ์ ๋ฌด๋ฅผ ํ์ธ ํต๊ณ์น์ ๊ธฐ๋ฐํด์ ์์ ๋ฐ ํ์ %์ ๊ฐ์ ์ ๊ฑฐ ํน์ ๋๋ฉ์ธ ์ง์์ ๋์ ํด์ ์ด์์น์ ๋ํ ๊ธฐ์ค์ ์ก๊ณ ์ ๊ฑฐ ๊ณผ์ ์ ์์์์ ์ ๊ฐ์ ๊ฒฝ์ฐ๋ ๋จ์ํ ํต๊ณ์น๋ก ํ๊ฒ ๋๋ ๋ชธ๋ฌด๊ฒ๊ฐ 100kg๋ง ๋์ด๊ฐ๋ ์ ๊ฑฐ๊ฐ ๋์ด๋ฒ๋ ค์ ๋ฐ๋ก ๋๋ฉ์ธ ์ง์์ ์์น ํน์ ์์์ (๊ต์ฅํ ์ฃผ๊ด..
[TIL]26.Logistic Regression(๋ก์ง์คํฑ ํ๊ท; ๋ถ๋ฅ)
๋ชฉํ ํ๋ จ/๊ฒ์ฆ/ํ ์คํธ(train/validate/test) ๋ฐ์ดํฐ์ ๋ํ ์ดํด ๋ถ๋ฅ(Classification)์ ํ๊ท(Regression)์ ์ฐจ์ด์ ์ ํ์ ํ๊ณ ๋ฌธ์ ์ ๋ง๋ ๋ชจ๋ธ ์ฌ์ฉ ๋ก์ง์คํฑํ๊ท(Logistic Regression)์ ๋ํ ์ดํด Train/Validate/Test data Kaggle 'Titanic: Machine Learning from Disaster' ์์ import pandas as pd train = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/titanic/train.csv') test = pd.read_csv('https://ds-lecture-data.s..
'21.12.21(ํ)_๋งค์ผ๊ฒฝ์
์ค๊ตญ ๊ธฐ์ค๊ธ๋ฆฌ ๊ธฐ์ต์ธํ์ ์์ฅ ๋ถ์ --- ์ผ์ฒํผ(์ฝ์คํผ : 3000) ๊บ ์ ธ ์ค๊ตญ ์ค์์ํ์ธ ์ธ๋ฏผ์ํ์ด 20์ผ ๊ธฐ์ค๊ธ๋ฆฌ ์ธํ ๋จํ ๊ธฐ์ค๊ธ๋ฆฌ ์ญํ ์ ํ๋ 1๋ ๋ง๊ธฐ ๋์ถ์ฐ๋๊ธ๋ฆฌ(LPR)์ 0.05% ๋ด๋ฆผ(20๊ฐ์๋ง) ๋ฏธ์ NFT, 10๋ ๋ค 100๋ฐฐ๋ก... ์ค์ ์์ฅ ์ก๋ฐํ ๊ฒ ๋ด๋ ๋ฏธ์ ํ ๋์ฒด๋ถ๊ฐํ ํฐ(NFT)๊ฐ ์ฑ์ฅํ๊ธฐ ์์ํ๋ฉด์ ํฅํ 10๋ ๊ฐ 100๋ฐฐ ์์ ์ธ๊ณ์ ๊ฐ์ํํ ๋ถ์๊ธฐ๊ด์ธ ๋ฉ์ฌ๋ฆฌ '2022๋ ๊ฐ์ํํ ์ ๊ณ ์ ๋ง' ๋ณด๊ณ ์์์ ์ด๊ฐ์ด ์ ๋ง ์ธํฐ๋ท์ ๋ธ๋ก์ฒด์ธ ๊ธฐ์ ์ด ์ ์ฉ๋จ์ ๋ฐ๋ผ ๊ฐ๋ฐฉ์ฑ๊ณผ ํ์ค์ํ๋ฅผ ์งํฅํ๋ NFT, ๋ํ์ด, ๋ฉํ๋ฒ์ค ๋ฑ์ด ๊ธ๊ฒฉํ ์ฑ์ฅํ ๊ฒ์ผ๋ก ์์ ์ค์ ๋ก NFT๋ถ์ผ๊ฐ ์ด๋ป๊ฒ ๋ ์ง๋ ์ ํํ๋ ๋ชจ๋ฅด๊ฒ ์ง๋ง, ์ฌ๋ฌ๊ฐ์ง NFT(๋ฏธ์ ํ, ์์ ์ ์๊ถ ๋ฑ)๋ค ์ค์๋ ์ ์ผ ์์ฅ์ฑ์ด..