Data Science/κ°œλ…κ³Ό μš©μ–΄

Linear Regression (μ„ ν˜• νšŒκ·€) - 8 | Assumptions (μ„ ν˜• νšŒκ·€ κ°€μ •)

Chan Lee 2024. 6. 12. 07:52

이번 ν¬μŠ€νŠΈμ—μ„œλŠ” μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μ μš©ν•˜κΈ° μœ„ν•œ λͺ‡κ°€μ§€μ˜ 핡심 가정듀을 μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

이 가정듀이 사싀이 μ•„λ‹ˆλΌλ©΄, μ΅œμ†Œμ œκ³±λ²•μ„ μ μš©ν•˜μ—¬ λͺ¨λΈμ„ λ””μžμΈ ν–ˆμ„ λ•Œ λ¬΄μ˜λ―Έν•˜κ³  λΆ€μ •ν™•ν•œ 결과값이 λ„μΆœλ  κ²ƒμ΄λ―€λ‘œ 이 점듀을 μœ μ˜ν•˜λŠ”κ²Œ μ’‹κ² μŠ΅λ‹ˆλ‹€.

 


1. Linearity (μ„ ν˜•μ„±)

이름뢀터가 μ„ ν˜• νšŒκ·€μž–μ•„μš”? 

각 독립 λ³€μˆ˜λŠ” κ³ μœ ν•œ κ³„μˆ˜κ°€ 곱해지고, 이λ₯Ό λ‹€ ν•©ν•΄μ„œ μ’…μ†λ³€μˆ˜λ₯Ό λ„μΆœν•©λ‹ˆλ‹€.

 

μ„ ν˜•μ„±μ„ νŒλ‹¨ν•˜λŠ” μ‰¬μš΄ 방법은 λ¬΄μ—‡μΌκΉŒμš”? 

독립 λ³€μˆ˜ 쀑 ν•˜λ‚˜(x1)λ₯Ό λ½‘μ•„μ„œ 쒅속 λ³€μˆ˜(y)에 λŒ€ν•΄μ„œ scatter plot을 κ·Έλ €λ³΄μ„Έμš”.

 

그럼  μ–ΌμΆ” λ°©ν–₯성이 보일텐데, 이게 μΌμ°¨ν•¨μˆ˜λ©΄ μ„ ν˜•μ„±μ΄ μžˆλŠ” 것이고, 

곑선이 보이면 μ„ ν˜•μ„±μ΄ λΆ€μ‘±ν•œ 데이터겠죠?

그리고 그런 κ²½μš°μ—λŠ” μ„ ν˜• νšŒκ·€κ°€ μ•„λ‹Œ λ‹€λ₯Έ 방법을 ν†΅ν•΄μ„œ 예츑 λͺ¨λΈμ„ λ””μžμΈ ν•΄μ•Ό ν•©λ‹ˆλ‹€.

 

ν˜Ήμ€, μ§€μˆ˜μ—°μ‚°μ΄λ‚˜ λ‘œκ·Έμ—°μ‚°μ„ ν†΅ν•΄μ„œ 데이터λ₯Ό μ‘°μ •ν•˜μ—¬ μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μ μš©ν•  수 μžˆκ²Œλ” ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

 

2. No Endogeneity of Regressors (λ‚΄μΈμ„±μ˜ λΆ€μž¬) 

Endogeneity(내인성)은 독립 λ³€μˆ˜(x*)κ°€ μ—λŸ¬μ— ν¬ν•¨λ˜μ–΄ μžˆμ„ λ•Œ λ°œμƒν•©λ‹ˆλ‹€.

λ‚΄μΈμ„±μ˜ λΆ€μž¬λž€, νšŒκ·€ λͺ¨λΈμ˜ μ˜€μ°¨ν•­

(Ɛ)κ³Ό 독립 λ³€μˆ˜(X)의 상관관계가 μ‘΄μž¬ν•˜μ§€ μ•ŠλŠ” 상황을 μ˜λ―Έν•©λ‹ˆλ‹€.

 

예λ₯Ό λ“€μ–΄ λ³΄κ² μŠ΅λ‹ˆλ‹€.

μš°λ¦¬κ°€ νœ΄μ–‘μ§€μ˜ 뢀동산 가격을 μ‘°μ‚¬ν•˜κΈ° μœ„ν•΄μ„œ ν•˜μ™€μ΄μ˜ 뢀동산 가격을 μ‘°μ‚¬ν–ˆμŠ΅λ‹ˆλ‹€.

쒅속 λ³€μˆ˜λŠ” λ‹Ήμ—°νžˆ 뢀동산 가격이고, 독립 λ³€μˆ˜λ‘œλŠ” μ£Όνƒμ˜ 크기와 μœ„μΉ˜λ₯Ό κ³ λ €ν–ˆμŠ΅λ‹ˆλ‹€.

그리고 뢄석 κ²°κ³Ό, 주택 가격은 주택이 ν•΄λ³€μœΌλ‘œλΆ€ν„° λ©€μ–΄μ§ˆ 수둝 λΉ„μ‹Έμ‘ŒμŠ΅λ‹ˆλ‹€.

 

ν•˜μ§€λ§Œ, 인간은 주둜 ν•΄λ³€μ˜ 집을 λ‚΄λ₯™μ˜ 집보닀 μ„ ν˜Έν•˜μ§€ μ•Šλ˜κ°€μš”? κ²°κ³Όκ°€ 직관적이지 μ•ŠμŠ΅λ‹ˆλ‹€.

μ‹¬μ§€μ–΄λŠ” 높은 μ—λŸ¬λ₯Ό λ³΄μ—¬μ€¬μŠ΅λ‹ˆλ‹€. 

μ™œ κ·ΈλŸ΄κΉŒμš”? 

 

더 뢄석해본 κ²°κ³Ό, 원인은 μš°λ¦¬κ°€ μ£Όνƒμ˜ 연식을 κ³ λ €ν•˜μ§€ μ•Šμ•„μ„œμ˜€μŠ΅λ‹ˆλ‹€.

λŒ€λΆ€λΆ„μ˜ ν•˜μ™€μ΄ 주택은 해변일 수둝 였래된 μ£Όνƒμ΄μ˜€κ³ , λ‚΄λ₯™μœΌλ‘œ 갈 수둝 μ‹ μΆ• μ£Όνƒμ΄μ˜€μŠ΅λ‹ˆλ‹€.

 

μš°λ¦¬λŠ” 초기 독립 λ³€μˆ˜μ— '연식'을 ν¬ν•¨ν•˜μ§€ μ•Šμ•˜κ³ , μ΄λŠ” 직관적이지 μ•Šμ€ 결과와 높은 μ—λŸ¬λ₯Ό λ³΄μ—¬μ€¬μŠ΅λ‹ˆλ‹€.

독립 λ³€μˆ˜μ— ν¬ν•¨λ˜μ§€ λͺ»ν•œ λ°μ΄ν„°λŠ” λͺ¨λ‘ μ—λŸ¬λ‘œ κ°‘λ‹ˆλ‹€.

μ€‘μš”ν•œ 독립 λ³€μˆ˜λ₯Ό 놓쳀닀면? λ‹Ήμ—°νžˆ μ—λŸ¬λŠ” 더 높아지겠죠? 

 

'λ‚΄μΈμ„±μ˜ λΆ€μž¬'λž€ 이 λ§₯λ½μ—μ„œ 이해할 수 μžˆκ² μŠ΅λ‹ˆλ‹€.

'데이터λ₯Ό μ„€λͺ…ν•˜κ³  μ˜ˆμΈ‘ν•˜λŠ”λ°μ— 맀우 μ€‘μš”ν•œ λ³€μˆ˜λ“€μ„ λ†“μΉ˜μ§€ μ•ŠλŠ”λ‹€' λŠ” 것 μž…λ‹ˆλ‹€.

 

λ‹Ήμ—°νžˆ 인간은 λͺ¨λ“  λ°μ΄ν„°μ—μ„œ ν•„μš”ν•œ 것듀을 μ™„λ²½ν•˜κ²Œ 골라내어 독립 λ³€μˆ˜λ‘œ ν™œμš©ν•  수 μ—†κ³ , 이λ₯Ό κΈ°λŒ€ν•˜μ§€λ„ μ•ŠμŠ΅λ‹ˆλ‹€.

ν•˜μ§€λ§Œ ν•΄λ‹Ή 뢄야에 λŒ€ν•œ μΈμ‚¬μ΄νŠΈκ°€ κΉŠμ„ 수둝, λ”μš± ν•΅μ‹¬μ μ΄μ§€λ§Œ μ€λ°€ν•˜κ²Œ μˆ¨μ–΄μžˆλŠ” μ€‘μš”ν•œ λ³€μˆ˜λ“€μ„ μ§šμ–΄λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

그리고 μ΄λŠ” λ°”λ‘œ μ—λŸ¬μ˜ κ°μ†Œ, λͺ¨λΈ μ„±λŠ₯의 ν–₯상을 μ˜λ―Έν•˜κ² μ£ ?

 

3. Normality and Homoscedasticity (μ •κ·œμ„±κ³Ό λ“±λΆ„μ‚°μ„±)

Normality, μ •κ·œμ„±μ€ 맀우 μ‰½μŠ΅λ‹ˆλ‹€.

Error term이 μ •κ·œ 뢄포λ₯Ό λ”°λ₯Έλ‹€λŠ” 뜻 μž…λ‹ˆλ‹€. => Ɛ ~ N(0, σ²)

 

Homoscdasticity, 등뢄산성은 λ°μ΄ν„°μ˜ Error Term, μž…μ‹€λ‘ μ˜ 뢄산이 λ™μΌν•˜λ‹€λŠ” κ°€μ •μž…λ‹ˆλ‹€.

 

였차의 뢄산이 λ™μΌν•˜μ§€ μ•Šμ„ λ•Œ, 

μš°λ¦¬λŠ” 이련 κ²½μš°μ— ν”νžˆ 둜그 μ—°μ‚°μ΄λ‚˜ 제곱근 λ“± μ—¬λŸ¬ 방법을 ν†΅ν•΄μ„œ 데이터λ₯Ό μ‘°μ •ν•©λ‹ˆλ‹€.

 

4. No Autocorrelation (μžκΈ°μƒκ΄€μ„±μ˜ λΆ€μž¬)

Autocorrelation, μžκΈ°μƒκ΄€μ΄λž€, μ‹œκ³„μ—΄ 데이터(Time-Series Data)μ—μ„œ νŠΉμ • μ‹œμ μ˜ μ˜€μ°¨κ°€ 이전 μ‹œμ μ˜ μ˜€μ°¨μ— 상관관계λ₯Ό κ°€μ§ˆ λ•Œ.

곡간적 λ°μ΄ν„°μ—μ„œ νŠΉμ • μœ„μΉ˜μ˜ μ˜€μ°¨κ°€ 인접 μœ„μΉ˜μ˜ μ˜€μ°¨μ™€ 상관관계λ₯Ό κ°€μ§ˆ λ•Œ λ₯Ό μ§€μΉ­ν•©λ‹ˆλ‹€.

μš°λ¦¬λŠ” μ„ ν˜•νšŒκ·€ λͺ¨λΈμ„ μ μš©ν•˜κΈ° μœ„ν•΄, 이 μžκΈ°μƒκ΄€μ„±μ΄ μ—†κΈ°λ₯Ό κ°€μ •ν•©λ‹ˆλ‹€.

 

자기 상관성을 μΈ‘μ •ν•˜κΈ° μœ„ν•œ λŒ€ν‘œμ μΈ λ°©λ²•μœΌλ‘œ Durbin-Watson Testκ°€ μžˆμŠ΅λ‹ˆλ‹€.

Durbin-Watson Test의 κ²°κ³Όκ°€ 2 μΌλ•Œ, μžκΈ°μƒκ΄€μ„±μ€ μ‘΄μž¬ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

0보닀 크고 2보닀 μž‘μœΌλ©΄ Positive correlation이 μ‘΄μž¬ν•©λ‹ˆλ‹€.

2보닀 크고 4보닀 μž‘μœΌλ©΄ Negative correlation이 μ‘΄μž¬ν•©λ‹ˆλ‹€.

 

5. No Multicollinearity (닀쀑곡선성)

μ„ ν˜• νšŒκ·€ λͺ¨λΈμ—μ„œ λ‘κ°œμ˜ 독립 λ³€μˆ˜ 사이에 κ°•ν•œ 상관관계가 λ‚˜νƒ€λ‚  λ•Œ, μš°λ¦¬λŠ” Multicollinearity, 닀쀑곡선성이 λ†’λ‹€κ³  λ§ν•©λ‹ˆλ‹€.

 

λ‘κ°œμ˜ 독립 λ³€μˆ˜ a, b에 λŒ€ν•΄μ„œ λ§Œμ•½ a = 3*b + 10으둜 ν‘œν˜„λœλ‹€κ³  생각 ν•΄ λ΄…μ‹œλ‹€.

κ·Έλ ‡λ‹€λ©΄, b = (a - 10)/3μœΌλ‘œλ„ ν‘œν˜„μ΄ λ˜κ² λ„€μš”.

이럴 λ•Œ, μš°λ¦¬λŠ” a 와 b의 multicollinearityκ°€ 1, μ™„λ²½ν•œ 닀쀑곡선성을 가진닀고 ν‘œν˜„ν•©λ‹ˆλ‹€.

 

λ§Œμ•½ κ·Έλ ‡λ‹€λ©΄, bκ°€ a둜 μ™„λ²½ν•˜κ²Œ ν‘œν˜„μ΄λ˜κ³ , aκ°€ b둜 μ™„λ²½ν•˜κ²Œ ν‘œν˜„μ΄ λ˜λŠ” κ°•ν•œ 상관관계가 μžˆλ‹€λ©΄,

λ‘κ°œλ₯Ό λ‹€ μ“°λŠ” μ˜λ―Έκ°€ 없지 μ•Šλ‚˜μš”?

 

μ’€ 더 μ‹€μš©μ μΈ μ˜ˆμ‹œλ₯Ό λ“€μ–΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

영ꡭ μ‹œκ³¨ λ§ˆμ„μ— 2개의 μˆ μ§‘μ΄ 있고, λ§ˆμ„ μ‚¬λžŒλ“€μ΄ λ§₯μ£Όλ₯Ό λ§ˆμ‹€λ•ŒλŠ” κΌ­ λ‘κ°œμ˜ 집 μ€‘μ—μ„œ ν•˜λ‚˜λ₯Ό κ°„λ‹€κ³  ν•΄λ³Όκ²Œμš”.

A μˆ μ§‘κ³Ό B μˆ μ§‘μ˜ μ‹œμž₯ μ μœ μœ¨μ„ λΆ„μ„ν•˜λ €κ³  ν•©λ‹ˆλ‹€.

 

이 λ•Œ, A μˆ μ§‘μ—μ„œ 500cc λ§₯주에 μΆ”κ°€λ‘œ 1000cc λ§₯μ£Όλ₯Ό νŒλ§€ν•˜λŠ” 반면, B μˆ μ§‘μ€ 500cc λ§₯주만 νŒλ§€ν•©λ‹ˆλ‹€.

데이터 λΆ„μ„κ°€λŠ” 3개의 독립 λ³€μˆ˜λ‘œ (Aμˆ μ§‘μ˜ 500cc 판맀이읡, 1000cc 판맀이읡, B μˆ μ§‘μ˜ 500cc 판맀이읡)을 λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€.

그리고 κ²°κ³Όλ₯Ό ν™•μΈν•˜λ‹ˆ μ˜ˆμƒν•˜μ§€ λͺ»ν•œ μ΄μƒν•œ κ²°κ³Όκ°€ λ‚˜μ™”μŠ΅λ‹ˆλ‹€.

 

μ΄μœ λŠ” λ‹Ήμ—°ν•©λ‹ˆλ‹€. 

ν•œ μˆ μ§‘μ—μ„œ 1000cc의 가격은 500cc의 가격과 맀우 κ°•ν•˜κ²Œ 상관관계가 μžˆμ„κ²λ‹ˆλ‹€.

λ‘κ°œμ˜ λ³€μˆ˜κ°€ κ°•ν•œ 상관관계λ₯Ό κ°€μ§€λŠ” 상황, mutlicollinearityκ°€ μžˆλ‹€κ³  말할 수 있겠죠? 

 

이런 μ‹μœΌλ‘œ κ°•ν•œ 상관관계가 μ‘΄μž¬ν•  수 μžˆλŠ” λ³€μˆ˜λ“€μ— λŒ€ν•΄μ„œλŠ” 검증을 거치고 νšŒκ·€ λͺ¨λΈμ˜ λ³€μˆ˜λ‘œ ν™œμš©ν•˜λŠ”κ²Œ μ€‘μš”ν•˜λ‹€κ³  ν•  수 μžˆκ² μŠ΅λ‹ˆλ‹€.