Channi Studies

Regression Analysis - Linear Regression | 회귀 분석 - 선형 회귀 본문

Data Science/개념과 용어

Regression Analysis - Linear Regression | 회귀 분석 - 선형 회귀

Chan Lee 2024. 6. 2. 14:10

Linear Regression(선형 회귀): 2개 이상의 변수들 사이에서의 인과 관계에 대한 선형 근사 (예측)

A linear approximation of a causal relationship between two or more variables.

 

선형 회귀의 과정

1. Sample data를 수집한다.

2. 해당 샘플에 맞는 모델을 디자인 한다.

3. 해당 모델으로 전체 population에 대한 예측을 한다.

 

선형 회귀에서 예측하는 값 dependent variable(종속 변수) 이고, (x1, x2, ..., xk)는 independent variable(독립 변수) 라고 부릅니다.

y 는 x들에 대한 함수로 표현됩니다. => y = f(x1, x2, ..., xk)

 

 

우선 Simple Linear Regression Model에 대해서 알아보겠습니다.

 

- Simple Linear Regression Model | 단순 선형 회귀 모델

단순 선형 회귀 모델은 다음과 같은 식으로 표현됩니다.

y =  β0 + β1*x1 + ε

 

y는 동일하게 예측값, 종속 변수를 의미하고, x 또한 독립 변수, 즉 예측값에 영향을 주는 변수를 의미합니다.

예를 들자면, 학력이 월급에 긍정적 상관관계가 있기 때문에, y = 월급(monthly income), x1 = 학습 기간(education) 이라고 볼 수 있겠습니다.

 

우리의 식에는 이 x1 앞에 계수 β1이 붙어있음을 확인할 수 있습니다.

β1은 우리의 예시에서, 교육이 연봉에 미치는 영향을 수량화한 값 입니다.

 

만약 y를 USD로 예측하고, x1은 학습한 총 기간을 햇수로 측정한 값이고, β1 = 50이라면, 

 

y = β0 + 50x1 + ε 이고, 

이는 1년의 추가적 공부마다 월급이 $50 증가함을 의미합니다.

 

이제 남은 것은 상수 β0와 오차(error), ε 입니다.

우리의 예시에서 상수 β0은 학습 기간과 상관 없이 직업을 가지면 기본적으로 받게 되는 최저 임금이라고 보면 되겠네요.

 

그리고 마지막 ε은 모델의 측정의 오차(error)를 나타냅니다.

예시에서 이 오차는 실제 측정된 월급과, 예측한 월급값 사이의 오차로 이해할 수 있습니다.

 

모든 예측의 error의 평균은 0입니다.만약 누군가가 예측 모델보다 월급을 더 받고 있다면, 어느 누군가는 분명히 모델보다 월급을 덜 받고 있습니다.

 

 

여기서 한가지 중요한 것은, 우리가 사용한 기호들은 population에 대한 기호들이라는 것 입니다.하지만 우리는 sample 값을 기반으로 예측값을 생산하잖아요?그렇기 때문에 실제 식은 이와 다릅니다.

 

실제 단순 선형 회귀 모델의 식은 다음과 같습니다.

ŷ = b0 + b1*x1

 

각 기호들은 다음을 의미합니다.

ŷ = Estimated/Predicted Value

b0 = constant

b1 = Quantifies the effect the independent(x) on the dependent(y)

x1 = Sample data for independent variable

 

각 xi 에 대해서 |ŷi - xi| = ê = 오차 입니다.

 

출처: 365 Data Science