Linear Regression(์ ํ ํ๊ท): 2๊ฐ ์ด์์ ๋ณ์๋ค ์ฌ์ด์์์ ์ธ๊ณผ ๊ด๊ณ์ ๋ํ ์ ํ ๊ทผ์ฌ (์์ธก)
A linear approximation of a causal relationship between two or more variables.
์ ํ ํ๊ท์ ๊ณผ์
1. Sample data๋ฅผ ์์งํ๋ค.
2. ํด๋น ์ํ์ ๋ง๋ ๋ชจ๋ธ์ ๋์์ธ ํ๋ค.
3. ํด๋น ๋ชจ๋ธ์ผ๋ก ์ ์ฒด population์ ๋ํ ์์ธก์ ํ๋ค.
์ ํ ํ๊ท์์ ์์ธกํ๋ ๊ฐ y ๋ dependent variable(์ข ์ ๋ณ์) ์ด๊ณ , (x1, x2, ..., xk)๋ independent variable(๋ ๋ฆฝ ๋ณ์) ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
y ๋ x๋ค์ ๋ํ ํจ์๋ก ํํ๋ฉ๋๋ค. => y = f(x1, x2, ..., xk)
์ฐ์ Simple Linear Regression Model์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
- Simple Linear Regression Model | ๋จ์ ์ ํ ํ๊ท ๋ชจ๋ธ
๋จ์ ์ ํ ํ๊ท ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ํํ๋ฉ๋๋ค.
y = β0 + β1*x1 + ε
y๋ ๋์ผํ๊ฒ ์์ธก๊ฐ, ์ข ์ ๋ณ์๋ฅผ ์๋ฏธํ๊ณ , x ๋ํ ๋ ๋ฆฝ ๋ณ์, ์ฆ ์์ธก๊ฐ์ ์ํฅ์ ์ฃผ๋ ๋ณ์๋ฅผ ์๋ฏธํฉ๋๋ค.
์๋ฅผ ๋ค์๋ฉด, ํ๋ ฅ์ด ์๊ธ์ ๊ธ์ ์ ์๊ด๊ด๊ณ๊ฐ ์๊ธฐ ๋๋ฌธ์, y = ์๊ธ(monthly income), x1 = ํ์ต ๊ธฐ๊ฐ(education) ์ด๋ผ๊ณ ๋ณผ ์ ์๊ฒ ์ต๋๋ค.
์ฐ๋ฆฌ์ ์์๋ ์ด x1 ์์ ๊ณ์ β1์ด ๋ถ์ด์์์ ํ์ธํ ์ ์์ต๋๋ค.
์ด β1์ ์ฐ๋ฆฌ์ ์์์์, ๊ต์ก์ด ์ฐ๋ด์ ๋ฏธ์น๋ ์ํฅ์ ์๋ํํ ๊ฐ ์ ๋๋ค.
๋ง์ฝ y๋ฅผ USD๋ก ์์ธกํ๊ณ , x1์ ํ์ตํ ์ด ๊ธฐ๊ฐ์ ํ์๋ก ์ธก์ ํ ๊ฐ์ด๊ณ , β1 = 50์ด๋ผ๋ฉด,
y = β0 + 50x1 + ε ์ด๊ณ ,
์ด๋ 1๋ ์ ์ถ๊ฐ์ ๊ณต๋ถ๋ง๋ค ์๊ธ์ด $50 ์ฆ๊ฐํจ์ ์๋ฏธํฉ๋๋ค.
์ด์ ๋จ์ ๊ฒ์ ์์ β0์ ์ค์ฐจ(error), ε ์ ๋๋ค.
์ฐ๋ฆฌ์ ์์์์ ์์ β0์ ํ์ต ๊ธฐ๊ฐ๊ณผ ์๊ด ์์ด ์ง์ ์ ๊ฐ์ง๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฐ๊ฒ ๋๋ ์ต์ ์๊ธ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๊ฒ ๋ค์.
๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง ε์ ๋ชจ๋ธ์ ์ธก์ ์ ์ค์ฐจ(error)๋ฅผ ๋ํ๋ ๋๋ค.
์์์์ ์ด ์ค์ฐจ๋ ์ค์ ์ธก์ ๋ ์๊ธ๊ณผ, ์์ธกํ ์๊ธ๊ฐ ์ฌ์ด์ ์ค์ฐจ๋ก ์ดํดํ ์ ์์ต๋๋ค.
๋ชจ๋ ์์ธก์ error์ ํ๊ท ์ 0์ ๋๋ค.๋ง์ฝ ๋๊ตฐ๊ฐ๊ฐ ์์ธก ๋ชจ๋ธ๋ณด๋ค ์๊ธ์ ๋ ๋ฐ๊ณ ์๋ค๋ฉด, ์ด๋ ๋๊ตฐ๊ฐ๋ ๋ถ๋ช ํ ๋ชจ๋ธ๋ณด๋ค ์๊ธ์ ๋ ๋ฐ๊ณ ์์ต๋๋ค.
์ฌ๊ธฐ์ ํ๊ฐ์ง ์ค์ํ ๊ฒ์, ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ๊ธฐํธ๋ค์ population์ ๋ํ ๊ธฐํธ๋ค์ด๋ผ๋ ๊ฒ ์ ๋๋ค.ํ์ง๋ง ์ฐ๋ฆฌ๋ sample ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก๊ฐ์ ์์ฐํ์์์?๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ค์ ์์ ์ด์ ๋ค๋ฆ ๋๋ค.
์ค์ ๋จ์ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
yฬ = b0 + b1*x1
๊ฐ ๊ธฐํธ๋ค์ ๋ค์์ ์๋ฏธํฉ๋๋ค.
yฬ = Estimated/Predicted Value
b0 = constant
b1 = Quantifies the effect the independent(x) on the dependent(y)
x1 = Sample data for independent variable
๊ฐ xi ์ ๋ํด์ |yฬi - xi| = ê = ์ค์ฐจ ์ ๋๋ค.