Data Science/κ°œλ…κ³Ό μš©μ–΄

Linear Regression (μ„ ν˜• νšŒκ·€) - 5 | Ordinary Least Squares (μ΅œμ†Œμ œκ³±λ²•)

Chan Lee 2024. 6. 3. 04:40

μ €λ²ˆ ν¬μŠ€νŠΈμ—μ„œλŠ” SST, SSR, SSE의 관계에 λŒ€ν•΄μ„œ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€.

 

Linear Regression (μ„ ν˜• νšŒκ·€) - 4 | SST = SSR + SSE

μ €λ²ˆ ν¬μŠ€νŠΈμ—μ„œλŠ” μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ λ””μžμΈ ν•˜λŠ” κ³Όμ •μ—μ„œ StatsModels 라이브러리λ₯Ό ν™œμš©ν•˜μ—¬ 얻을 수 μžˆλŠ” Coefficient Table에 λŒ€ν•΄μ„œ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€. Linear Regression (μ„ ν˜• νšŒκ·€) -3 | Coefficients Table

code-studies.tistory.com

 

이번 ν¬μŠ€νŠΈμ—μ„œλŠ” 3번 ν¬μŠ€νŠΈμ—μ„œ μ•Œμ•„λ³΄λ˜ ν‘œμ—μ„œ 아직 닀루지 λͺ»ν•œ 뢀뢄듀을 μ•Œμ•„λ³΄κ³ , μ΅œμ†Œμ œκ³±λ²•μ„ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

coefficient table에 λŒ€ν•΄μ„œλŠ” κΈ°μ‘΄ ν¬μŠ€νŠΈμ—μ„œ λ‹€λ£¨μ—ˆμœΌλ‹ˆ, 아직 μ•ˆ 보셨닀면 보고 μ˜€μ‹¬μ„ μΆ”μ²œν•©λ‹ˆλ‹€.

 

Linear Regression (μ„ ν˜• νšŒκ·€) -3 | Coefficients Table

μ €λ²ˆ ν¬μŠ€νŠΈμ—μ„œλŠ” statsmodelsλ₯Ό ν™œμš©ν•˜μ—¬ Simple Linear Regression λͺ¨λΈμ„ λ””μžμΈ ν•΄ λ³΄μ•˜μŠ΅λ‹ˆλ‹€. Linear Regression (μ„ ν˜• νšŒκ·€) - 2 | Simple Linear Regression (λ‹¨μˆœ μ„ ν˜• νšŒκ·€)μ €λ²ˆ ν¬μŠ€νŠΈμ—μ„œλŠ” μ„ ν˜• νšŒκ·€μ—μ„œ

code-studies.tistory.com

 


첫번째둜 λˆˆμ— λ“€μ–΄μ˜€λŠ” 것은 Dep. Variable : GPA μž…λ‹ˆλ‹€.

Dependent Variable, 쒅속 λ³€μˆ˜λ‘œ GPAλ₯Ό μ„€μ •ν–ˆλ‹€λŠ” 점을 λ³΄μ—¬μ€λ‹ˆλ‹€.

 

SAT 점수둜 GPAλ₯Ό μ˜ˆμΈ‘ν•˜λŠ” λͺ¨λΈμ΄μ˜€λ˜κ±° κΈ°μ–΅ λ‚˜μ‹œλ‚˜μš”? 

μ •μƒμ μœΌλ‘œ 코딩을 ν–ˆλŠ”μ§€λ₯Ό μ—¬κΈ°μ„œ ν™•μΈν•˜λ©΄ μ’‹κ² λ„€μš”. 

 

λ‹€μŒμ€ Model: OLS κ°€ λ³΄μ΄λ„€μš”. 

우리의 μ„ ν˜• νšŒκ·€μ—μ„œ ν™œμš©ν•œ λͺ¨λΈμ˜ μ’…λ₯˜λ₯Ό λ‚˜νƒ€λ‚΄κ³ , OLSλŠ” Ordinary Least Squares (μ΅œμ†Œμ œκ³±λ²•) 을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

Model은 ν•œμΉΈ λ°‘μ˜ Method: Least Squares 와 관련이 μžˆμŠ΅λ‹ˆλ‹€.

이번 κ²½μš°μ—λŠ” λ‘˜μ΄ 차이가 μ•„μ˜ˆ μ—†λŠ”λ°, λ‚˜μ€‘μ— 더 λ‹€μ–‘ν•œ λͺ¨λΈκ³Ό 방법듀을 λ‹€λ£¨κ²Œλ˜λ©΄, 차이λ₯Ό μ•Œ 수 μžˆκ² μŠ΅λ‹ˆλ‹€. 

 

μ•„λ¬΄νŠΌ 우리의 λͺ¨λΈμ΄ μ΅œμ†Œμ œκ³±λ²•μ„ ν™œμš©ν•΄μ„œ GPAλ₯Ό μ˜ˆμΈ‘ν–ˆλ‹€λŠ” λœ»μΈλ°μš”, κ·Έλ ‡λ‹€λ©΄ OLSλŠ” μ •ν™•νžˆ μ–΄λ–€ λ°©λ²•μΌκΉŒμš”?

 

 

Ordinary Least Squares | μ΅œμ†Œ μ œκ³±λ²•

μ €λ²ˆ ν¬μŠ€νŠΈμ—μ„œ 닀룬 SSE, Sum of Squared Error의 κ°œλ… κΈ°μ–΅λ‚˜μ‹œλ‚˜μš”?

Ordniary Least Squaresμ—μ„œ SquaresλŠ” 이 SSEλ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.

즉, Least SSE, λͺ¨λΈμ˜ 였차의 총 합을 μ΅œμ†Œν•œμœΌλ‘œ ν•˜κ² λ‹€λŠ” 뜻 μž…λ‹ˆλ‹€.

 

SST = SSR + SSE의 κ΄€κ³„μ—μ„œ SSEκ°€ μž‘μ•„μ§ˆ 수둝 SSR은 SST에 κ·Όμ ‘ν•˜κ³ , 

μ΄λŠ” λͺ¨λΈμ˜ 정확도 ν–₯상을 μ˜λ―Έν•˜λŠ” 점. κΈ°μ–΅ λ‚˜μ‹œλ‚˜μš”?

μ§κ΄€μ μœΌλ‘œ, Lowest SSEλ₯Ό μ·¨ν•˜λ©΄, 정확도가 μ΅œλŒ€ν™” λ˜κ² λ‹€λŠ” κ°œλ…μž…λ‹ˆλ‹€.

 

κ·Έλž˜ν”„λ‘œ ν•œλ²ˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

Source: 365 Data Science

 

SSE의 μ΅œμ†Ÿκ°’ S(b)λŠ” 미적뢄과 μ„ ν˜•λŒ€μˆ˜ν•™μ˜ κ°œλ…μ„ ν™œμš©ν•˜μ—¬ μ–»κ²Œ λ©λ‹ˆλ‹€.

사싀 κ·Έλƒ₯ μˆ˜ν•™μ΄κΈ° λ•Œλ¬Έμ— μ†μœΌλ‘œλ„ μΆ©λΆ„νžˆ ꡬ할 수 μžˆλŠ”λ°μš”, λ°μ΄ν„°μ˜ μˆ˜κ°€ 수백, μˆ˜μ²œκ°œμ—μ„œλΆ€ν„° μˆ˜μ‹­λ§Œκ°œλ₯Ό λ„˜λŠ” λ°©λŒ€ν•œ 양을 λ‹€λ£°λ•Œμ—λŠ” λ‹Ήμ—°νžˆ μ‚¬λžŒμ΄ μ†μœΌλ‘œ λͺ»ν•˜κ² μ£ ?

 

κ·Έλž˜μ„œ μš°λ¦¬κ°€ python을 μ‚¬μš©ν•΄μ„œ 이λ₯Ό κ΅¬ν•œ 것이고, Excel, SPSS, SAS, Stata같은 μ†Œν”„νŠΈμ›¨μ–΄λ‘œλ„ ꡬ할 수 있고, Rκ³Ό 같은 λ‹€λ₯Έ μ–Έμ–΄λ‘œλ„ ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€.

 


μ—¬κΈ°κΉŒμ§€ ν•΄μ„œ λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ™€ OLS에 λŒ€ν•΄μ„œ κ°„λž΅ν•˜κ²Œ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€.

λ‹Ήμ—°ν•˜κ²Œλ„, OLS 말고도 λ‹€μ–‘ν•œ νšŒκ·€ 기법듀이 μ‘΄μž¬ν•©λ‹ˆλ‹€.

(Generalized Least Squares, Bayesian Regression, Kernel Regression, etc)

 

ν•˜μ§€λ§Œ 기본적으둜 κ°€μž₯ ν”ν•˜κ²Œ μ“°μ΄λŠ” νšŒκ·€ 방법은 OLS 기법이고, 

μš°λ¦¬λŠ” 아직 기초 λ‹¨κ³„μ΄λ‹ˆκΉŒ OLS둜 λ§Œμ‘±ν•˜λŠ”κ±Έλ‘œ ν•˜κ² μŠ΅λ‹ˆλ‹€.

λ‚˜μ€‘μ— 저도 곡뢀λ₯Ό 많이 ν•΄μ„œ 더 μ•Œκ²Œ 되면 μΆ”κ°€μ μœΌλ‘œ λ‹€λ£¨κ² μŠ΅λ‹ˆλ‹€.

 

λ‹€μŒ ν¬μŠ€νŠΈμ—μ„œλŠ” λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ˜ λ§ˆμ§€λ§‰ 포슀트둜, κ²°μ • κ³„μˆ˜λΌκ³  λΆˆλ¦¬λŠ” R-Squared에 λŒ€ν•΄μ„œ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.