1. ๋จ์์ ํํ๊ท๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด ์ ์ ๋์ด์ผ ํ๋ ์กฐ๊ฑด๋ค์ ๋ํด ์ฐพ์๋ณด์๊ณ ๋ ผํด๋ณด์ธ์.
- ๋ ๋ณ์๊ฐ ์ ํ๊ด๊ณ์ ์์ด์ผ ํฉ๋๋ค.
- ํ๋ณธ ์ถ์ถ์ด ๋ฌด์์๋ก ์ด๋ค์ ธ์ผ ํฉ๋๋ค.
- ์ง์ ์ ๊ทธ๋ฆฌ๊ธฐ ์ํด ์ต์ 2๊ฐ ์ด์์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผํฉ๋๋ค.
- ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ์ ํ๊ท ์ 0์ ๋ง์กฑํฉ๋๋ค.(Zero-conditional mean)
- ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ๋ค์ ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ค์ผ ํฉ๋๋ค.(Normality ; ์ ๊ท์ฑ)
- ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจ๋ค์ด ๊ฐ์ ์ ๋๋ก ํผ์ ธ ์์ด์ผ ํฉ๋๋ค.(homoscedasticity ; ๋ฑ๋ถ์ฐ์ฑ)
- ์ฃผ์ด์ง X๊ฐ์์ ์ค์ฐจํญ๋ค๋ผ๋ฆฌ๋ ๋ ๋ฆฝ์ด์ด์ผ ํฉ๋๋ค.(Independence ; ๋ ๋ฆฝ์ฑ)
์์ ์ ์ ๋ฅผ ์กฐ๊ธ ๋ ์์ธํ ์ดํด๋ณด์๋ฉด
์์ ๊ฐ์ ๊ทธ๋ฆผ์์ ๋ชจ๋ ์ ์ ์ง๋๋ ์ง์ ์ ๊ทธ์ ์๋ ์์ง๋ง ์ด๋ค ์ง์ ์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ค์ด ๋ถ์ฐ๋์ด์๋ค๊ณ ์๊ฐํ ์ ์์ต๋๋ค.(ํต๊ณ์ ์ธ ์๊ฐ)
์์ ๊ฐ์ด Y๋ฅผ ํํํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ฮต์ 4~7๋ฒ์ ์ค์ฐจ์ ํด๋นํ๋ฉฐ, ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ ฯ์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋๋ค. ์ฆ, ๋ค์ ๋งํด ๊ณ ์ ๋ ๋ณ์ X์ ๋ํด์ Y์ ๊ฐ์ ํ์ ์ ์ธ ๊ฐ์ด ์๋ ํ๋ฅ ์ ์ธ ๊ฐ(ํ๋ฅ ๋ณ์)๋ผ๋ ์๋ฏธ์ ๋๋ค. ์ ์์ ์๋ณ์ ํ๊ท ์ ์ทจํ๋ฉด
๊ณผ ๊ฐ์ ์์ด ๋ฉ๋๋ค. (ฮฒ0 ์ ฮฒ1X๋ ์์๊ฐ, ฮต์ ํ๊ท ์ 0์ด๊ธฐ ๋๋ฌธ)
์ ๋ฆฌํ๋ฉด, ์ฐ๋ฆฌ๊ฐ ์์ธกํ๋ ค๋ ๊ฐ์ ์๋ฐํ ๋ฐ์ง๋ฉด Y๊ฐ ์๋ E(Y)๊ฐ ๋ฉ๋๋ค.
(Y์ ๊ฒฝ์ฐ, ํ๊ท ์ด 'ฮฒ0 + ฮฒ1Xi'์ด๊ณ ํ์คํธ์ฐจ๋ ฯ์ธ ๋ถํฌ๋ฅผ ๋ฐ๋ฆ
๋๋ค.)
์๋ ๊ทธ๋ฆผ์ ๋ณด์๋ฉด ๋ ์ดํด๊ฐ ํธํ์ค๊ฒ๋๋ค!(๊ฐ X ๊ฐ์ ๋ํด Y๊ฐ๋ค์ด ์ ๊ท๋ถํฌ๋ฅผ ์ด๋ฃจ๊ณ ์๋ ๋ชจ์ต)
2. OLS์ ๋ํด์ ๊ฒ์ํด ๋ณด๊ณ ๋ณธ์ธ์ ์ดํด๋ฅผ ๋ น์ฌ๋ด์ด ๋ณธ์ธ์ ์ธ์ด๋ก ์ค๋ช ํด๋ณด์ธ์.
์์ธก๊ฐ๊ณผ ๊ด์ธก๊ฐ์ ์ฐจ์ด์ธ ์์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํ ๊ฒ์ผ๋ก ์ด ๋ ํ๊ท์ ์ ์์ฐจ์ ๊ณฑ๊ฐ๋ค์ ํฉ(RSS)๋ฅผ ์ต์ํํ๋ ์ ์ ๋๋ค. ์ด ํ๊ท์ ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ OLS(Ordinary Least Squares)๋ผ๊ณ ํฉ๋๋ค. cf)1๋ฒ์์์ '์ค์ฐจ'์ 2๋ฒ์์์ '์์ฐจ'๋ ๋ค๋ฅธ ๊ฐ๋ ์ ๋๋ค.
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์๋ก์ด ํน์ฑ(ํน์ฑ๊ณตํ), ์ด์์น, Scaler, ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์ (0) | 2021.12.23 |
---|---|
Kaggle_House Sales in King County, USA (0) | 2021.12.21 |
๋ฒ ์ด์ง์ ์์ ํ์ด(Bayesian Problem example) (0) | 2021.12.10 |
ํฐ ์์ ๋ฒ์น, ์ค์ฌ๊ทนํ์ ๋ฆฌ ์ฝ๋๋ก ๊ตฌํ (0) | 2021.12.10 |
ANOVA ์์, ์ฌ๋ฌ ์ํ๋ง (0) | 2021.12.10 |