Channi Studies

Linear Regression (선형 회귀) - 4 | SST = SSR + SSE 본문

Data Science/개념과 용어

Linear Regression (선형 회귀) - 4 | SST = SSR + SSE

Chan Lee 2024. 6. 3. 04:14

저번 포스트에서는 선형 회귀 모델을 디자인 하는 과정에서 StatsModels 라이브러리를 활용하여 얻을 수 있는 Coefficient Table에 대해서 알아보았습니다.

 

Linear Regression (선형 회귀) -3 | Coefficients Table

저번 포스트에서는 statsmodels를 활용하여 Simple Linear Regression 모델을 디자인 해 보았습니다. Linear Regression (선형 회귀) - 2 | Simple Linear Regression (단순 선형 회귀)저번 포스트에서는 선형 회귀에서

code-studies.tistory.com

 

이번 포스트에서는 우리가 만든 선형 회귀 모델의 분산을 평가하는 몇가지 방법을 가볍게 알아보겠습니다.

 


우리의 회귀 모델  = b0 + b1*x1 을 알아보기 이전에 3개의 용어를 알아보겠습니다.

 

1. Sum of Squares Total (SST)

출처: 365 Data Science

Sum of Squares Total 은 매우 간단합니다.

각 xi에 대한 yi값(실제값)에서 y값들의 평균을 뺀 것을 제곱하여 모두 더한 값 입니다.

 

분산의 개념과 매우 유사하죠? 정확합니다. SST는 데이터의 총 분산을 측정합니다.가끔 TSS, Total Sum of Squares로 표기하는 경우도 있습니다.

 

2. Sum of Squares Regression (SSR)

출처: 365 Data Science

Sum of Squares Regression은 SST를 우리 모델에 적용한다고 생각하면 쉽습니다.

ŷi(xi에 대한 회귀직선의 예측값) 에서 y의 평균을 뺀 것을 제곱하여 모두 더한 값 입니다.

 

이 값은 우리의 회귀 직선이 얼마나 데이터에 적합하게 디자인 되었는지를 보여줍니다.

만약 SSR이 SST와 동일하다면, 우리의 모델이 모든 관측된 분산을 완벽하고 정확하게 나타내고 있다고 이해할 수 있겠습니다. 

다시 말해 모델이 모든 데이터를 완벽하게 예측하고 있다는 뜻으로, 현실에서는 사실상 불가능합니다.

가까우면 가까울 수록 좋다고 이해하면 되겠죠?

 

SSR 역시 ESS, Explained Sum of Squares로 표기하는 경우가 있습니다.

 

3. Sum of Squares Error (SSE)

Source: 365 Data Science

마지막으로 알아볼 SSE는 오차의 제곱의 합 입니다.

선형 회귀 직선에 대하여 실제 값에서 예측 값의 차이를 ei라고 하고, 이 값의 제곱을 모두 더한 값 입니다.

이는 또한 unexplained variability, 설명하지 못한 분산의 값으로 이해할 수 있습니다.

 

당연하게도 이 값은 클수록 오차가 크다는 뜻이니까, 작으면 작을수록 좋겠죠?

SSE 역시 RSS, Residual Sum of Squares로 부르는 경우가 있습니다.

 

 

위 그래프들에서 볼 수 있듯, SST = SSR + SSE, 즉

Total Variability = Explained Variability + Unexplained Variability의 관계가 존재합니다.

 

특정 SST를 기준으로 더 낮은 SSE, 즉 더 낮은 설명하지 못한 분산, 다시 말해 더 낮은 에러는 더 높은 SSR, 즉 더 높은 정확도로 귀결됩니다.

 

 


다음 포스트에서는 저번 포스트에서 살펴본 표에서 아직 알아보지 못한 부분들을 다시 살펴보겠습니다.