Channi Studies

Linear Regression (선형 회귀) - 6 | R-Squared (결정 계수) 본문

Data Science/개념과 용어

Linear Regression (선형 회귀) - 6 | R-Squared (결정 계수)

Chan Lee 2024. 6. 3. 05:03

지난 포스트에서는 OLS, 최소 제곱법에 대해서 간단하게 알아보았습니다.

Linear Regression (선형 회귀) - 5 | Ordinary Least Squares (최소제곱법)

저번 포스트에서는 SST, SSR, SSE의 관계에 대해서 알아보았습니다. Linear Regression (선형 회귀) - 4 | SST = SSR + SSE저번 포스트에서는 선형 회귀 모델을 디자인 하는 과정에서 StatsModels 라이브러리를 활

code-studies.tistory.com

 
이번 포스트에서는 결정계수, R Squared에 대해서 알아보겠습니다.


4번 포스트에서 SST (Total Variability) = SSR (Explained Variability)  + SSE (Unexplained Variability)로 정리했던것, 기억 나시나요?
이는 우리 모델의 정확도를 알 수 있지만, 또 하나의 statistics들입니다. 
우리의 회귀 모델의 정확도를 명확하게 표현해주는 하나의 계수는 없을까요?
 
어떻게 보면 이 계수는 존재할수도 있고, 존재하지 않다고 볼 수도 있습니다.
우선 그 주인공인 R-Squared, 결정계수에 대해서 알아봅시다.
 
 

R-Squared | 결정계수

R² = SSR / SST 의 관계를 가지는 계수입니다.
주어진 데이터에서의 (설명된 산포도) / (전체 산포도)를 나타내는데요, 당연하게도 0 ~ 1의 범위를 가집니다.
 
만약 R² = 0이라면, 우리의 회귀 모델은 데이터의 variability를 전혀 설명하지 못한다 고 이해할 수있습니다.
반면 R² = 1이라면, 우리의 모델은 데이터의 모든 variability를 완벽하게 설명한다 고 이해할 수 있습니다.
 
아쉽지만, R² = 1인 경우는 극히 드뭅니다.
일반적으로 모델의 결정계수는 [0.2, 0.9]의 범위를 가집니다.
 
 
자, 그렇다면 몇의 결정계수부터 우리가 '좋은 회귀 모델' 이라고 기준을 삼을 수 있을까요?
다시 아쉽게도, 아직 관습적으로 정해진 기준은 존재하지 않습니다.
 
일반적으로 과학계에서는 0.7 ~ 0.99 사이의 값을 가지면 좋은 모델로 판단합니다.
반면, 사회과학, 금융, 경제의 분야에서는 0.2 이상의 값만 가져도 좋은 모델로 간주될 수 있습니다.
 
 
우리의 연봉을 예측하는 회귀 모델을 디자인한다고 가정했을때,
우리는 독립 변수들로 아마 학력, 성격, 거주지, 출신 국가, 사용 가능한 언어, 부모의 재력 등등 여러가지 변수를 고려할 것 입니다.
하지만 이 많은 것들을 고려한다고 하더라도, 연봉을 예측하는 결정 계수의 값은 50%가 채 되지 않을 수도 있습니다.
연봉은 매우 복잡하고, 예측하기가 힘든 데이터이기 때문이죠. 
 
 
우리의 표에서의 결정계수 R² = 0.406의 값을 가졌습니다.
SAT 점수로 GPA를 예측하는 모델임을 감안해서, 
우리의 모델은 41%의 결정계수로 SAT점수로 GPA를 예측하는 모델입니다.
 
41%는 확연하게 좋은 모델도, 떨어지는 모델도 아닙니다.
하지만 90%보다는 확연히 낮기 때문에, 우리가 뭔가 중요한 변수를 놓치고 있다고는 이해할 수 있겠네요.
 
당연히 수능 성적만으로 대학교 학점을 완벽하게 예측할 수 없겠죠?
성별, 거주지, 결혼 상태, 부모와의 관계, 가족의 월평균 소득 등 수많은 추가적인 변수들이 영향을 줄 것 입니다.
이런 변수들을 추가하면 더욱 정확한 회귀분석을 할 수 있겠습니다.
 
이런 변수들을 선언할 때, 처음 모델을 디자인 하던 때 말했듯이 
직관적이라고 바로 받아들이지 말고, 한번 차근차근 논리적으로 검증하는 과정을 거치는것이 중요합니다.
 
 
세계적으로 여성은 남성보다 고등학교까지 성적이 더 높은 경향성이 있으나, 더 높은 학습 수준에서는 남성이 더 뛰어난 능력을 보입니다.
이러한 데이터에는 또 차별이라던지, 어떠한 이유가 붙을 수 있지만, 그것을 우리가 고려할 것은 아니고, '차이가 명확하게 존재한다'를 이해하는게 포인트겠죠?
 
또, 부모님의 수입이 불안정하여 본인이 가장의 역할을 해야 하는 학생의 경우, 당연하게도 성적이 그렇지 않은 학생보다 낮을 확률이 매우 높겠죠? 
결혼해서 아이가 있는 학생의 경우에도 역시 마찬가지일 것 입니다.
 
그렇다면 머리가 장발이거나 단발이거나 반삭이라고 해서 성적에 영향이 있을까요? 
그건 당연히 아니겠죠?
 
이런 식으로 논리적인 과정을 거쳐서 변수들을 선별하는 과정이 또 중요하다고 할 수 있겠습니다.
 
 


요약

1. R² (결정계수) 는 선형 회귀 모델의 정확도를 나타내는 하나의 계수이다.
2. 더 높은 결정 계수를 얻기 위해서는 정확한 변수들의 선별 및 수집이 요구된다.
 
이번 포스트까지 해서 단순 선형 회귀에 대한 기초적 개념에 대해서 함께 공부했습니다.
(저도 공부하면서 쓴 거라서 틀린게 있을수도 있어요 😅)
 
다음 포스트부터는 드디어 독립 변수가 여러개인, 다중 선형 회귀, Multiple Linear Regression에 대해서 알아보겠습니다. 🎉
읽어주셔서 감사합니다.