์ง๋ ํฌ์คํธ์์๋ R-squared, ๊ฒฐ์ ๊ณ์์ ๋ํด์ ์์๋ณด์์ต๋๋ค.
์ด๋ ์ฐ๋ฆฌ์ ํ๊ท ๋ชจ๋ธ์ด ์ค์ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง๋ฅผ ๋ํ๋ธ ๊ฐ์ผ๋ก, SST/SSR ์ด์์ต๋๋ค.
์ด๋ฒ ํฌ์คํธ์์๋ ์์ ๋ ๊ฒฐ์ ๊ณ์, Adjusted R Squared์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
์ฐ๋ฆฌ๊ฐ ์์ฃผ ๋ณด๋ ์ด Regerssion summary table์๋, ์ ๋ฒ์ ํ์ธํ R-squared ๊ฐ์ด ๋ํ๋ ์์ต๋๋ค.
๊ทธ ๋ฐ๋ก ๋ฐ์๋ Adj. R-squared, ์ฆ ์์ ๋ ๊ฒฐ์ ๊ณ์ ๊ฐ์ด ์์ต๋๋ค.
์ด ์์ ๋ ๊ฒฐ์ ๊ณ์๋ ๋๋์ฒด ๋ญ๊น์?
์ด๋ฅผ ์๊ธฐ ์ํด์๋, ์ฐ์ R-squared์ ํ๊ณ๋ฅผ ๋จผ์ ์ดํดํด์ผ ํฉ๋๋ค.
[์์ง SST, SSR, SSE์ ๋ํด์ ๋ชจ๋ฅด์ ๋ค๋ฉด ๋ค์ ํฌ์คํธ๋ฅผ ๋จผ์ ๋ณด๊ณ ์์ฃผ์ธ์]
R-Squared, ๊ฒฐ์ ๊ณ์์ ์์ SSR/SST ์ด์๊ณ , SST๋ (์ค์ y๊ฐ - ํ๊ท y๊ฐ)^2 ์ ์ด ํฉ์ด์์ต๋๋ค.
์ฌ๊ธฐ์ ๋ ๋ฆฝ ๋ณ์์ธ x๊ฐ ์๋ฌด๋ฆฌ ๋์ด๋๋, ์ค์ y๊ฐ๊ณผ ํ๊ท y๊ฐ์๋ ๋น์ฐํ ์๋ฌด ์ํฅ์ด ์๊ฒ ์ฃ ?
์ฆ, R- squared์ ๋ถ๋ชจ ๋ถ๋ถ์ ๋ณ์๋ฅผ ์๋ฌด๋ฆฌ ๋๋ ค๋ ๋์ผํฉ๋๋ค.
๋ฐ๋ฉด, SSR๋ ์ค๋ช ๋ ๋ถ์ฐ์ผ๋ก, ๋ณ์๊ฐ ๋๋ฉด ๋์๋ก ํ๊ท ๋ชจ๋ธ์ ์ค๋ช ์ ๋ ์ํ๋ฉด ์ํ์ง ๋ชปํ์ง ์๊ฒ ์ฃ ?
์ค์ ๋ก ๋ณ์๊ฐ ๋์ด๋๋ฉด, SSR๋ ๋ฌด์กฐ๊ฑด ์ฆ๊ฐํ๊ฑฐ๋ ์ ์ง๋ฉ๋๋ค.
๊ฐ์ํ ์๊ฐ ์์ด์.
์ด๋ ๋ถ์์์ ๋ถ์์ ์ฆ๊ฐ๋ ์ ์ง, ๊ทธ๋ฆฌ๊ณ ๋ถ๋ชจ์ ๋ฌด์กฐ๊ฑด์ ์ธ ์ ์ง๋ฅผ ์๋ฏธํ๋ฏ๋ก,
๋ณ์๊ฐ ์ฆ๊ฐํ๋ฉด ๊ฒฐ์ ๊ณ์๋ ๋ฌด์กฐ๊ฑด ์ฆ๊ฐํ๊ฑฐ๋ ์ ์ง๋ฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ๋ง์ฝ ์๋ฌด๋ฐ ์๋ฏธ๊ฐ ์๊ณ , ๊ฒฐ๊ณผ ์์ธก์ ๋์์ด ๋์ง๊ฐ ์๋ ๋ณ์๋ค๋ง ์๋ฉ ์ถ๊ฐํ๋ฉด ์ด๋ป๊ฒ ๋ ๊น์?
์ด ์ํฉ์ ์ฐ๋ฆฌ๋ ๊ณผ์ ํฉ (Overfitting) ์ด๋ผ๊ณ ํ๋ฉฐ, ๊ณผ์ ํฉ๋ ๋ชจ๋ธ์ ํ์ต๋ ๋ฐ์ดํฐ์์๋ง ๋ฐ์ด๋ ์์ธก ์ฑ๋ฅ์ ๋ฐํํ๊ณ , ์๋ก์ด ๋ฐ์ดํฐ์๋ ํ์ต ์ฑ๋ฅ์ด ์ง๋์น๊ฒ ๋ฎ์ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํฉ๋๋ค.
์, ์ฌ๊ธฐ๊น์ง R-squared์ ํ ๊ฐ์ง ํ๊ณ๋ฅผ ๋ง์๋๋ ธ์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด, Adjusted R-Squared๋ ๋น์ฐํ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋์์ธ ๋์๊ฒ ์ฃ ?
๋ฌผ๋ก ์ ๋๋ค.
์์ ๋ ๊ฒฐ์ ๊ณ์๋ ๋ฌด์๋ฏธํ ๋ณ์์ ์ถ๊ฐ๋ฅผ penalizeํ๊ฒ๋ ๋์์ธ ๋์ด ์์ต๋๋ค.
์ฆ, ๋ฌด์๋ฏธํ ๋ณ์๊ฐ ๋ง์์๋ก adjusted r-squared๋ ๊ฐ์ํฉ๋๋ค.
์ด๋ฌํ ์ด์ ๋ก adjusted r-squared๋ ๊ฑฐ์ ๋ฌด์กฐ๊ฑด r-squared๋ณด๋ค ์์ต๋๋ค.
๋ค์ ์ฒ์์ ํ๋ก ๋์๊ฐ๊ฒ ์ต๋๋ค.
์ด์ ์ฐ๋ฆฌ๋ ์ adjusted r-squared๊ฐ ๋ ์์์ง, ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ๋ฌด์์ ์๋ฏธํ๋์ง๋ฅผ ๋ฐฐ์ ์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ด๋ค ๋ณ์๊ฐ ๋ฌด์๋ฏธํ์ง๋ฅผ ์ง๊ฐ ๋ง๊ณ ๋ฐ์ดํฐ๋ก ํ์คํ๊ฒ ํ์ธํ ๋ฐฉ๋ฒ์ ์์๊น์?
ํ์ ์๋ ๋ถ๋ถ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ ๊ฐ์ ์๋ฅ ์ฑ์ ์ผ๋ก ๋ํ ํ์ ์ ์์ธกํ๋ ๋จ์ ์ ํํ๊ท ๋ชจ๋ธ์์, ๋ฌด์๋ฏธํ ๋๋ค ์ ์ 1, 2, 3์ ํํํ๋ ๋ณ์ ํ๋๋ฅผ ์ถ๊ฐํ ๋ชจ๋ธ์ ๋๋ค.
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๊ฐ ๋ณผ ๊ฒ์ p-value๋ฅผ ๋ํ๋ด๋ P>|t| ์ ๊ฐ์ ๋๋ค.
๊ฐ์ค ๊ฒ์ ํ ๋, p-value๊ฐ 5%, 0.05๋ณด๋ค ์์ผ๋ฉด ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๋ฐ์ดํฐ๋ผ๊ณ ๊ฐ์ฃผํ๋๊ฑฐ, ๊ธฐ์ต ๋์๋์?
SAT์ ๊ฒฝ์ฐ์๋ 0.000์ผ๋ก ๋งค์ฐ ์ ์๋ฏธํ๊ฒ ๋ํ ์ฑ์ ์ ์์ธกํ๋ค๊ณ ์ดํดํ ์ ์์ต๋๋ค.
๋ฐ๋ฉด Rand 1,2,3์ผ๋ก ์ด๋ฆ ๋ถ์ฌ์ง ๋๋ค ์ ์๊ฐ๋ค์ ๊ฒฝ์ฐ์๋ ๋ฌด๋ ค 0.762๋ก, ๋งค์ฐ ๋ฌด์๋ฏธํ ๊ฐ์์ ๋ํ๋ด๊ณ ์์ต๋๋ค.
์ฆ, ์ด๋ก์จ ์ฐ๋ฆฌ๋ ์ฌ๋ฌ๊ฐ์ง ๋ณ์๊ฐ ์ฃผ์ด์ก์ ๋, ํ๊ท ๋ชจ๋ธ์์์ p-value๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ ํ ๊ฐ์ด ์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๊ณ ์์ธกํ๋์ง์ ๋ํด์ ์ ์ ์๊ฒ ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ๊ฐ๋จํ๊ฒ, F-Statistic์ ๋ํด์๋ ์์๋ณด๊ฒ ์ต๋๋ค.
์ด๋ฆ์์ ์ ์ถํ๋ฏ T-Statistic, Z-Statistic ์ฒ๋ผ ํ๋ฅ ๋ถํฌ์์ ๊ฐ์ค ๊ฒ์ ํ ๋ ์ฌ์ฉํฉ๋๋ค.
F-Statistic์ Null hypothesis๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
H0: B1 = B2 = B3 = ... = Bk = 0
H1: At least one is different
์ฆ, ์ฐ๋ฆฌ์ '๋ชจ๋ ๋ ๋ฆฝ ๋ณ์๋ค์ด ๋ฌด์๋ฏธํ๋ค' ๊ฐ Null hypothesis๊ฐ ๋๊ฒ ๊ตฌ์,
๋จ ํ๋๋ผ๋ ์ ์๋ฏธํ๋ค๋๊ฒ Alternative Hypothesis๊ฐ ๋๊ฒ ์ต๋๋ค.
F-Statistic ๊ฐ์ด 0์ ๊ฐ๊น์ธ ์๋ก Null์ ๋ถ์ ํ์ง ๋ชปํ ํ๋ฅ ์ด ๋์ด๋ฉ๋๋ค.
ํด์์ ํธํ๊ฒ ํ๊ธฐ ์ํด์, F-Statistic ๋ฐ์ ์ด๋ฅผ P-value๋ก ๋ณํํ ๊ฐ์ ๋ณด๋ ๊ฒ์ด ํธํฉ๋๋ค.
์ญ์ 0.05๋ฅผ significance level๋ก ํ๊ณ , 0.05๋ณด๋ค ์์ผ๋ฉด ์ต์ 1๊ฐ ์ด์์ด ์ ์๋ฏธํ๋ค๊ณ ํด์ํ ์ ์๊ฒ ๋ค์.
'Data Science > ๊ฐ๋ ๊ณผ ์ฉ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
What is Data Science? (1) | 2024.09.09 |
---|---|
Linear Regression (์ ํ ํ๊ท) - 8 | Assumptions (์ ํ ํ๊ท ๊ฐ์ ) (1) | 2024.06.12 |
Linear Regression (์ ํ ํ๊ท) - 6 | R-Squared (๊ฒฐ์ ๊ณ์) (1) | 2024.06.03 |
Linear Regression (์ ํ ํ๊ท) - 5 | Ordinary Least Squares (์ต์์ ๊ณฑ๋ฒ) (1) | 2024.06.03 |
Linear Regression (์ ํ ํ๊ท) - 4 | SST = SSR + SSE (1) | 2024.06.03 |