μ΄λ² ν¬μ€νΈμμλ μ ν νκ· λͺ¨λΈμ μ μ©νκΈ° μν λͺκ°μ§μ ν΅μ¬ κ°μ λ€μ μμλ³΄κ² μ΅λλ€.
μ΄ κ°μ λ€μ΄ μ¬μ€μ΄ μλλΌλ©΄, μ΅μμ κ³±λ²μ μ μ©νμ¬ λͺ¨λΈμ λμμΈ νμ λ 무μλ―Ένκ³ λΆμ νν κ²°κ³Όκ°μ΄ λμΆλ κ²μ΄λ―λ‘ μ΄ μ λ€μ μ μνλκ² μ’κ² μ΅λλ€.
1. Linearity (μ νμ±)
μ΄λ¦λΆν°κ° μ ν νκ·μμμ?
κ° λ 립 λ³μλ κ³ μ ν κ³μκ° κ³±ν΄μ§κ³ , μ΄λ₯Ό λ€ ν©ν΄μ μ’ μλ³μλ₯Ό λμΆν©λλ€.
μ νμ±μ νλ¨νλ μ¬μ΄ λ°©λ²μ 무μμΌκΉμ?
λ 립 λ³μ μ€ νλ(x1)λ₯Ό λ½μμ μ’ μ λ³μ(y)μ λν΄μ scatter plotμ κ·Έλ €λ³΄μΈμ.
κ·ΈλΌ μΌμΆ λ°©ν₯μ±μ΄ 보μΌν λ°, μ΄κ² μΌμ°¨ν¨μλ©΄ μ νμ±μ΄ μλ κ²μ΄κ³ ,
곑μ μ΄ λ³΄μ΄λ©΄ μ νμ±μ΄ λΆμ‘±ν λ°μ΄ν°κ² μ£ ?
κ·Έλ¦¬κ³ κ·Έλ° κ²½μ°μλ μ ν νκ·κ° μλ λ€λ₯Έ λ°©λ²μ ν΅ν΄μ μμΈ‘ λͺ¨λΈμ λμμΈ ν΄μΌ ν©λλ€.
νΉμ, μ§μμ°μ°μ΄λ λ‘κ·Έμ°μ°μ ν΅ν΄μ λ°μ΄ν°λ₯Ό μ‘°μ νμ¬ μ ν νκ· λͺ¨λΈμ μ μ©ν μ μκ²λ ν μλ μμ΅λλ€.
2. No Endogeneity of Regressors (λ΄μΈμ±μ λΆμ¬)
Endogeneity(λ΄μΈμ±)μ λ 립 λ³μ(x*)κ° μλ¬μ ν¬ν¨λμ΄ μμ λ λ°μν©λλ€.
λ΄μΈμ±μ λΆμ¬λ, νκ· λͺ¨λΈμ μ€μ°¨ν
(Ζ)κ³Ό λ 립 λ³μ(X)μ μκ΄κ΄κ³κ° μ‘΄μ¬νμ§ μλ μν©μ μλ―Έν©λλ€.
μλ₯Ό λ€μ΄ λ³΄κ² μ΅λλ€.
μ°λ¦¬κ° ν΄μμ§μ λΆλμ° κ°κ²©μ μ‘°μ¬νκΈ° μν΄μ νμμ΄μ λΆλμ° κ°κ²©μ μ‘°μ¬νμ΅λλ€.
μ’ μ λ³μλ λΉμ°ν λΆλμ° κ°κ²©μ΄κ³ , λ 립 λ³μλ‘λ μ£Όνμ ν¬κΈ°μ μμΉλ₯Ό κ³ λ €νμ΅λλ€.
κ·Έλ¦¬κ³ λΆμ κ²°κ³Ό, μ£Όν κ°κ²©μ μ£Όνμ΄ ν΄λ³μΌλ‘λΆν° λ©μ΄μ§ μλ‘ λΉμΈμ‘μ΅λλ€.
νμ§λ§, μΈκ°μ μ£Όλ‘ ν΄λ³μ μ§μ λ΄λ₯μ μ§λ³΄λ€ μ νΈνμ§ μλκ°μ? κ²°κ³Όκ° μ§κ΄μ μ΄μ§ μμ΅λλ€.
μ¬μ§μ΄λ λμ μλ¬λ₯Ό 보μ¬μ€¬μ΅λλ€.
μ κ·Έλ΄κΉμ?
λ λΆμν΄λ³Έ κ²°κ³Ό, μμΈμ μ°λ¦¬κ° μ£Όνμ μ°μμ κ³ λ €νμ§ μμμμμ΅λλ€.
λλΆλΆμ νμμ΄ μ£Όνμ ν΄λ³μΌ μλ‘ μ€λλ μ£Όνμ΄μκ³ , λ΄λ₯μΌλ‘ κ° μλ‘ μ μΆ μ£Όνμ΄μμ΅λλ€.
μ°λ¦¬λ μ΄κΈ° λ 립 λ³μμ 'μ°μ'μ ν¬ν¨νμ§ μμκ³ , μ΄λ μ§κ΄μ μ΄μ§ μμ κ²°κ³Όμ λμ μλ¬λ₯Ό 보μ¬μ€¬μ΅λλ€.
λ 립 λ³μμ ν¬ν¨λμ§ λͺ»ν λ°μ΄ν°λ λͺ¨λ μλ¬λ‘ κ°λλ€.
μ€μν λ 립 λ³μλ₯Ό λμ³€λ€λ©΄? λΉμ°ν μλ¬λ λ λμμ§κ² μ£ ?
'λ΄μΈμ±μ λΆμ¬'λ μ΄ λ§₯λ½μμ μ΄ν΄ν μ μκ² μ΅λλ€.
'λ°μ΄ν°λ₯Ό μ€λͺ νκ³ μμΈ‘νλλ°μ λ§€μ° μ€μν λ³μλ€μ λμΉμ§ μλλ€' λ κ² μ λλ€.
λΉμ°ν μΈκ°μ λͺ¨λ λ°μ΄ν°μμ νμν κ²λ€μ μλ²½νκ² κ³¨λΌλ΄μ΄ λ 립 λ³μλ‘ νμ©ν μ μκ³ , μ΄λ₯Ό κΈ°λνμ§λ μμ΅λλ€.
νμ§λ§ ν΄λΉ λΆμΌμ λν μΈμ¬μ΄νΈκ° κΉμ μλ‘, λμ± ν΅μ¬μ μ΄μ§λ§ μλ°νκ² μ¨μ΄μλ μ€μν λ³μλ€μ μ§μ΄λΌ μ μμ΅λλ€.
κ·Έλ¦¬κ³ μ΄λ λ°λ‘ μλ¬μ κ°μ, λͺ¨λΈ μ±λ₯μ ν₯μμ μλ―Ένκ² μ£ ?
3. Normality and Homoscedasticity (μ κ·μ±κ³Ό λ±λΆμ°μ±)
Normality, μ κ·μ±μ λ§€μ° μ½μ΅λλ€.
Error termμ΄ μ κ· λΆν¬λ₯Ό λ°λ₯Έλ€λ λ» μ λλ€. => Ζ ~ N(0, σ²)
Homoscdasticity, λ±λΆμ°μ±μ λ°μ΄ν°μ Error Term, μ μ€λ‘ μ λΆμ°μ΄ λμΌνλ€λ κ°μ μ λλ€.
μ€μ°¨μ λΆμ°μ΄ λμΌνμ§ μμ λ,
μ°λ¦¬λ μ΄λ ¨ κ²½μ°μ νν λ‘κ·Έ μ°μ°μ΄λ μ κ³±κ·Ό λ± μ¬λ¬ λ°©λ²μ ν΅ν΄μ λ°μ΄ν°λ₯Ό μ‘°μ ν©λλ€.
4. No Autocorrelation (μκΈ°μκ΄μ±μ λΆμ¬)
Autocorrelation, μκΈ°μκ΄μ΄λ, μκ³μ΄ λ°μ΄ν°(Time-Series Data)μμ νΉμ μμ μ μ€μ°¨κ° μ΄μ μμ μ μ€μ°¨μ μκ΄κ΄κ³λ₯Ό κ°μ§ λ.
곡κ°μ λ°μ΄ν°μμ νΉμ μμΉμ μ€μ°¨κ° μΈμ μμΉμ μ€μ°¨μ μκ΄κ΄κ³λ₯Ό κ°μ§ λ λ₯Ό μ§μΉν©λλ€.
μ°λ¦¬λ μ ννκ· λͺ¨λΈμ μ μ©νκΈ° μν΄, μ΄ μκΈ°μκ΄μ±μ΄ μκΈ°λ₯Ό κ°μ ν©λλ€.
μκΈ° μκ΄μ±μ μΈ‘μ νκΈ° μν λνμ μΈ λ°©λ²μΌλ‘ Durbin-Watson Testκ° μμ΅λλ€.
Durbin-Watson Testμ κ²°κ³Όκ° 2 μΌλ, μκΈ°μκ΄μ±μ μ‘΄μ¬νμ§ μμ΅λλ€.
0λ³΄λ€ ν¬κ³ 2λ³΄λ€ μμΌλ©΄ Positive correlationμ΄ μ‘΄μ¬ν©λλ€.
2λ³΄λ€ ν¬κ³ 4λ³΄λ€ μμΌλ©΄ Negative correlationμ΄ μ‘΄μ¬ν©λλ€.
5. No Multicollinearity (λ€μ€κ³΅μ μ±)
μ ν νκ· λͺ¨λΈμμ λκ°μ λ 립 λ³μ μ¬μ΄μ κ°ν μκ΄κ΄κ³κ° λνλ λ, μ°λ¦¬λ Multicollinearity, λ€μ€κ³΅μ μ±μ΄ λλ€κ³ λ§ν©λλ€.
λκ°μ λ 립 λ³μ a, bμ λν΄μ λ§μ½ a = 3*b + 10μΌλ‘ ννλλ€κ³ μκ° ν΄ λ΄ μλ€.
κ·Έλ λ€λ©΄, b = (a - 10)/3μΌλ‘λ ννμ΄ λκ² λ€μ.
μ΄λ΄ λ, μ°λ¦¬λ a μ bμ multicollinearityκ° 1, μλ²½ν λ€μ€κ³΅μ μ±μ κ°μ§λ€κ³ ννν©λλ€.
λ§μ½ κ·Έλ λ€λ©΄, bκ° aλ‘ μλ²½νκ² ννμ΄λκ³ , aκ° bλ‘ μλ²½νκ² ννμ΄ λλ κ°ν μκ΄κ΄κ³κ° μλ€λ©΄,
λκ°λ₯Ό λ€ μ°λ μλ―Έκ° μμ§ μλμ?
μ’ λ μ€μ©μ μΈ μμλ₯Ό λ€μ΄λ³΄κ² μ΅λλ€.
μκ΅ μ골 λ§μμ 2κ°μ μ μ§μ΄ μκ³ , λ§μ μ¬λλ€μ΄ λ§₯μ£Όλ₯Ό λ§μ€λλ κΌ λκ°μ μ§ μ€μμ νλλ₯Ό κ°λ€κ³ ν΄λ³Όκ²μ.
A μ μ§κ³Ό B μ μ§μ μμ₯ μ μ μ¨μ λΆμνλ €κ³ ν©λλ€.
μ΄ λ, A μ μ§μμ 500cc λ§₯μ£Όμ μΆκ°λ‘ 1000cc λ§₯μ£Όλ₯Ό ν맀νλ λ°λ©΄, B μ μ§μ 500cc λ§₯μ£Όλ§ ν맀ν©λλ€.
λ°μ΄ν° λΆμκ°λ 3κ°μ λ 립 λ³μλ‘ (Aμ μ§μ 500cc ν맀μ΄μ΅, 1000cc ν맀μ΄μ΅, B μ μ§μ 500cc ν맀μ΄μ΅)μ λΆμνμ΅λλ€.
κ·Έλ¦¬κ³ κ²°κ³Όλ₯Ό νμΈνλ μμνμ§ λͺ»ν μ΄μν κ²°κ³Όκ° λμμ΅λλ€.
μ΄μ λ λΉμ°ν©λλ€.
ν μ μ§μμ 1000ccμ κ°κ²©μ 500ccμ κ°κ²©κ³Ό λ§€μ° κ°νκ² μκ΄κ΄κ³κ° μμκ²λλ€.
λκ°μ λ³μκ° κ°ν μκ΄κ΄κ³λ₯Ό κ°μ§λ μν©, mutlicollinearityκ° μλ€κ³ λ§ν μ μκ² μ£ ?
μ΄λ° μμΌλ‘ κ°ν μκ΄κ΄κ³κ° μ‘΄μ¬ν μ μλ λ³μλ€μ λν΄μλ κ²μ¦μ κ±°μΉκ³ νκ· λͺ¨λΈμ λ³μλ‘ νμ©νλκ² μ€μνλ€κ³ ν μ μκ² μ΅λλ€.
'Data Science > κ°λ κ³Ό μ©μ΄' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
The Bootstrap Technique | λΆνΈμ€νΈλ© (2) | 2024.10.23 |
---|---|
What is Data Science? (1) | 2024.09.09 |
Linear Regression (μ ν νκ·) - 7 | Adjusted R-Squared (μμ λ κ²°μ κ³μ) (0) | 2024.06.12 |
Linear Regression (μ ν νκ·) - 6 | R-Squared (κ²°μ κ³μ) (1) | 2024.06.03 |
Linear Regression (μ ν νκ·) - 5 | Ordinary Least Squares (μ΅μμ κ³±λ²) (1) | 2024.06.03 |