์ง๋ ํฌ์คํธ์์๋ OLS, ์ต์ ์ ๊ณฑ๋ฒ์ ๋ํด์ ๊ฐ๋จํ๊ฒ ์์๋ณด์์ต๋๋ค.
์ด๋ฒ ํฌ์คํธ์์๋ ๊ฒฐ์ ๊ณ์, R Squared์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
4๋ฒ ํฌ์คํธ์์ SST (Total Variability) = SSR (Explained Variability) + SSE (Unexplained Variability)๋ก ์ ๋ฆฌํ๋๊ฒ, ๊ธฐ์ต ๋์๋์?
์ด๋ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์ ์ ์์ง๋ง, ๋ ํ๋์ statistics๋ค์
๋๋ค.
์ฐ๋ฆฌ์ ํ๊ท ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋ช
ํํ๊ฒ ํํํด์ฃผ๋ ํ๋์ ๊ณ์๋ ์์๊น์?
์ด๋ป๊ฒ ๋ณด๋ฉด ์ด ๊ณ์๋ ์กด์ฌํ ์๋ ์๊ณ , ์กด์ฌํ์ง ์๋ค๊ณ ๋ณผ ์๋ ์์ต๋๋ค.
์ฐ์ ๊ทธ ์ฃผ์ธ๊ณต์ธ R-Squared, ๊ฒฐ์ ๊ณ์์ ๋ํด์ ์์๋ด
์๋ค.
R-Squared | ๊ฒฐ์ ๊ณ์
Rยฒ = SSR / SST ์ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ ๊ณ์์
๋๋ค.
์ฃผ์ด์ง ๋ฐ์ดํฐ์์์ (์ค๋ช
๋ ์ฐํฌ๋) / (์ ์ฒด ์ฐํฌ๋)๋ฅผ ๋ํ๋ด๋๋ฐ์, ๋น์ฐํ๊ฒ๋ 0 ~ 1์ ๋ฒ์๋ฅผ ๊ฐ์ง๋๋ค.
๋ง์ฝ Rยฒ = 0์ด๋ผ๋ฉด, ์ฐ๋ฆฌ์ ํ๊ท ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ variability๋ฅผ ์ ํ ์ค๋ช
ํ์ง ๋ชปํ๋ค ๊ณ ์ดํดํ ์์์ต๋๋ค.
๋ฐ๋ฉด Rยฒ = 1์ด๋ผ๋ฉด, ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ชจ๋ variability๋ฅผ ์๋ฒฝํ๊ฒ ์ค๋ช
ํ๋ค ๊ณ ์ดํดํ ์ ์์ต๋๋ค.
์์ฝ์ง๋ง, Rยฒ = 1์ธ ๊ฒฝ์ฐ๋ ๊ทนํ ๋๋ญ
๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ๊ฒฐ์ ๊ณ์๋ [0.2, 0.9]์ ๋ฒ์๋ฅผ ๊ฐ์ง๋๋ค.
์, ๊ทธ๋ ๋ค๋ฉด ๋ช์ ๊ฒฐ์ ๊ณ์๋ถํฐ ์ฐ๋ฆฌ๊ฐ '์ข์ ํ๊ท ๋ชจ๋ธ' ์ด๋ผ๊ณ ๊ธฐ์ค์ ์ผ์ ์ ์์๊น์?
๋ค์ ์์ฝ๊ฒ๋, ์์ง ๊ด์ต์ ์ผ๋ก ์ ํด์ง ๊ธฐ์ค์ ์กด์ฌํ์ง ์์ต๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ๊ณผํ๊ณ์์๋ 0.7 ~ 0.99 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉด ์ข์ ๋ชจ๋ธ๋ก ํ๋จํฉ๋๋ค.
๋ฐ๋ฉด, ์ฌํ๊ณผํ, ๊ธ์ต, ๊ฒฝ์ ์ ๋ถ์ผ์์๋ 0.2 ์ด์์ ๊ฐ๋ง ๊ฐ์ ธ๋ ์ข์ ๋ชจ๋ธ๋ก ๊ฐ์ฃผ๋ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ์ ์ฐ๋ด์ ์์ธกํ๋ ํ๊ท ๋ชจ๋ธ์ ๋์์ธํ๋ค๊ณ ๊ฐ์ ํ์๋,
์ฐ๋ฆฌ๋ ๋
๋ฆฝ ๋ณ์๋ค๋ก ์๋ง ํ๋ ฅ, ์ฑ๊ฒฉ, ๊ฑฐ์ฃผ์ง, ์ถ์ ๊ตญ๊ฐ, ์ฌ์ฉ ๊ฐ๋ฅํ ์ธ์ด, ๋ถ๋ชจ์ ์ฌ๋ ฅ ๋ฑ๋ฑ ์ฌ๋ฌ๊ฐ์ง ๋ณ์๋ฅผ ๊ณ ๋ คํ ๊ฒ ์
๋๋ค.
ํ์ง๋ง ์ด ๋ง์ ๊ฒ๋ค์ ๊ณ ๋ คํ๋ค๊ณ ํ๋๋ผ๋, ์ฐ๋ด์ ์์ธกํ๋ ๊ฒฐ์ ๊ณ์์ ๊ฐ์ 50%๊ฐ ์ฑ ๋์ง ์์ ์๋ ์์ต๋๋ค.
์ฐ๋ด์ ๋งค์ฐ ๋ณต์กํ๊ณ , ์์ธกํ๊ธฐ๊ฐ ํ๋ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ด์ฃ .
์ฐ๋ฆฌ์ ํ์์์ ๊ฒฐ์ ๊ณ์ Rยฒ = 0.406์ ๊ฐ์ ๊ฐ์ก์ต๋๋ค.
SAT ์ ์๋ก GPA๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์์ ๊ฐ์ํด์,
์ฐ๋ฆฌ์ ๋ชจ๋ธ์ 41%์ ๊ฒฐ์ ๊ณ์๋ก SAT์ ์๋ก GPA๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์
๋๋ค.
41%๋ ํ์ฐํ๊ฒ ์ข์ ๋ชจ๋ธ๋, ๋จ์ด์ง๋ ๋ชจ๋ธ๋ ์๋๋๋ค.
ํ์ง๋ง 90%๋ณด๋ค๋ ํ์ฐํ ๋ฎ๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๊ฐ ๋ญ๊ฐ ์ค์ํ ๋ณ์๋ฅผ ๋์น๊ณ ์๋ค๊ณ ๋ ์ดํดํ ์ ์๊ฒ ๋ค์.
๋น์ฐํ ์๋ฅ ์ฑ์ ๋ง์ผ๋ก ๋ํ๊ต ํ์ ์ ์๋ฒฝํ๊ฒ ์์ธกํ ์ ์๊ฒ ์ฃ ?
์ฑ๋ณ, ๊ฑฐ์ฃผ์ง, ๊ฒฐํผ ์ํ, ๋ถ๋ชจ์์ ๊ด๊ณ, ๊ฐ์กฑ์ ์ํ๊ท ์๋ ๋ฑ ์๋ง์ ์ถ๊ฐ์ ์ธ ๋ณ์๋ค์ด ์ํฅ์ ์ค ๊ฒ ์
๋๋ค.
์ด๋ฐ ๋ณ์๋ค์ ์ถ๊ฐํ๋ฉด ๋์ฑ ์ ํํ ํ๊ท๋ถ์์ ํ ์ ์๊ฒ ์ต๋๋ค.
์ด๋ฐ ๋ณ์๋ค์ ์ ์ธํ ๋, ์ฒ์ ๋ชจ๋ธ์ ๋์์ธ ํ๋ ๋ ๋งํ๋ฏ์ด
์ง๊ด์ ์ด๋ผ๊ณ ๋ฐ๋ก ๋ฐ์๋ค์ด์ง ๋ง๊ณ , ํ๋ฒ ์ฐจ๊ทผ์ฐจ๊ทผ ๋
ผ๋ฆฌ์ ์ผ๋ก ๊ฒ์ฆํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋๊ฒ์ด ์ค์ํฉ๋๋ค.
์ธ๊ณ์ ์ผ๋ก ์ฌ์ฑ์ ๋จ์ฑ๋ณด๋ค ๊ณ ๋ฑํ๊ต๊น์ง ์ฑ์ ์ด ๋ ๋์ ๊ฒฝํฅ์ฑ์ด ์์ผ๋, ๋ ๋์ ํ์ต ์์ค์์๋ ๋จ์ฑ์ด ๋ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์
๋๋ค.
์ด๋ฌํ ๋ฐ์ดํฐ์๋ ๋ ์ฐจ๋ณ์ด๋ผ๋์ง, ์ด๋ ํ ์ด์ ๊ฐ ๋ถ์ ์ ์์ง๋ง, ๊ทธ๊ฒ์ ์ฐ๋ฆฌ๊ฐ ๊ณ ๋ คํ ๊ฒ์ ์๋๊ณ , '์ฐจ์ด๊ฐ ๋ช
ํํ๊ฒ ์กด์ฌํ๋ค'๋ฅผ ์ดํดํ๋๊ฒ ํฌ์ธํธ๊ฒ ์ฃ ?
๋, ๋ถ๋ชจ๋์ ์์
์ด ๋ถ์์ ํ์ฌ ๋ณธ์ธ์ด ๊ฐ์ฅ์ ์ญํ ์ ํด์ผ ํ๋ ํ์์ ๊ฒฝ์ฐ, ๋น์ฐํ๊ฒ๋ ์ฑ์ ์ด ๊ทธ๋ ์ง ์์ ํ์๋ณด๋ค ๋ฎ์ ํ๋ฅ ์ด ๋งค์ฐ ๋๊ฒ ์ฃ ?
๊ฒฐํผํด์ ์์ด๊ฐ ์๋ ํ์์ ๊ฒฝ์ฐ์๋ ์ญ์ ๋ง์ฐฌ๊ฐ์ง์ผ ๊ฒ ์
๋๋ค.
๊ทธ๋ ๋ค๋ฉด ๋จธ๋ฆฌ๊ฐ ์ฅ๋ฐ์ด๊ฑฐ๋ ๋จ๋ฐ์ด๊ฑฐ๋ ๋ฐ์ญ์ด๋ผ๊ณ ํด์ ์ฑ์ ์ ์ํฅ์ด ์์๊น์?
๊ทธ๊ฑด ๋น์ฐํ ์๋๊ฒ ์ฃ ?
์ด๋ฐ ์์ผ๋ก ๋
ผ๋ฆฌ์ ์ธ ๊ณผ์ ์ ๊ฑฐ์ณ์ ๋ณ์๋ค์ ์ ๋ณํ๋ ๊ณผ์ ์ด ๋ ์ค์ํ๋ค๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.
์์ฝ
1. Rยฒ (๊ฒฐ์ ๊ณ์) ๋ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋ํ๋ด๋ ํ๋์ ๊ณ์์ด๋ค.
2. ๋ ๋์ ๊ฒฐ์ ๊ณ์๋ฅผ ์ป๊ธฐ ์ํด์๋ ์ ํํ ๋ณ์๋ค์ ์ ๋ณ ๋ฐ ์์ง์ด ์๊ตฌ๋๋ค.
์ด๋ฒ ํฌ์คํธ๊น์ง ํด์ ๋จ์ ์ ํ ํ๊ท์ ๋ํ ๊ธฐ์ด์ ๊ฐ๋
์ ๋ํด์ ํจ๊ป ๊ณต๋ถํ์ต๋๋ค.
(์ ๋ ๊ณต๋ถํ๋ฉด์ ์ด ๊ฑฐ๋ผ์ ํ๋ฆฐ๊ฒ ์์์๋ ์์ด์ ๐
)
๋ค์ ํฌ์คํธ๋ถํฐ๋ ๋๋์ด ๋
๋ฆฝ ๋ณ์๊ฐ ์ฌ๋ฌ๊ฐ์ธ, ๋ค์ค ์ ํ ํ๊ท, Multiple Linear Regression์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค. ๐
์ฝ์ด์ฃผ์
์ ๊ฐ์ฌํฉ๋๋ค.