μ λ² ν¬μ€νΈμμλ statsmodelsλ₯Ό νμ©νμ¬ Simple Linear Regression λͺ¨λΈμ λμμΈ ν΄ λ³΄μμ΅λλ€.
μ΄λ² ν¬μ€νΈμμλ sm.OLS(y, x).fit()λ‘ μ»μ΄μ§ resultμ result.summary()λ₯Ό νμ λ 보μ¬μ§λ νμ λν΄μ μμλ³΄κ² μ΅λλ€.
ν΄λΉ λ΄μ©μ μ ν¬μ€νΈμμ κ°λ³κ² λ€λ£¨μμΌλ, λͺ¨λ₯΄μ λ€λ©΄ μ κΉ λ³΄κ³ μ€μλκ±Έ μΆμ²ν©λλ€.
μ νμμ νμΈν μ μλ―, λ§€μ° μ€μν μ λ³΄κ° λ§μ΄ λ€μ΄μμ΅λλ€.
νμ§λ§ μ°λ¦¬λ μ΄ μ€μμ μ°λ¦¬μκ² κ°μ₯ μ€μν λΆλΆμ μ€μ μ μΌλ‘ λ³΄κ² μ΅λλ€.
Coefficients Table
λ¨μ μ ν νκ· λͺ¨λΈμ μμ΄ κΈ°μ΅ λμλμ?
μΌλ°μ μΈ μΌμ°¨ν¨μμ λ§€μ° μ μ¬ν ννμμ΅λλ€.
yΜ = b0 + b1*x1
μ λ² ν¬μ€νΈμμ νμ©νλ―μ΄, μ κ·Έλνμμ μ°λ¦¬λ Constant(b0)κ³Ό λ 립λ³μ x1μ κ³μ b1μ νμΈν μ μμ΅λλ€.
const νμ coef μ΄, μ¦ 0.2750μ΄ b0μ μλ―Ένκ³ , SAT(y κ°μ μ΄λ¦) νμ coef μ΄, 0.0017μ΄ b1μ μλ―Έν©λλ€.
μ¦, μ°λ¦¬μ λ¨μ μ ν νκ·λͺ¨λΈμ λ€μκ³Ό κ°κ² λ€μ.
yΜ = 0.275+ 0.0017*x1
μ λ²μ ν΄λ΄€λ€μνΌ μ λͺ¨λΈμ pyplotμ ν΅ν΄μ λ°μ΄ν°λ€μ scatter plot μμ κ·Έλ €λ³Έλ€λ©΄ λ€μκ³Ό κ°μ΅λλ€.
μ κ·Έλνμμμ μ€λ μ§μ μ μ΄ μ°λ¦¬μ νκ· μ§μ (Regression Line) μ λλ€.
μ°λ¦¬μ λͺ¨λΈμ΄ κ·Έλμ λ¬΄μ¨ μλ―ΈμΈμ§λ₯Ό μ κΉ μμλ³ΌκΉμ?
yΜ = 0.275+ 0.0017*x1
μ¬κΈ°μ μ°λ¦¬λ SAT(μλ₯) μ μλ₯Ό κΈ°λ°μΌλ‘ λνκ΅ μ‘Έμ μμ GPA(νμ )μ μμΈ‘νλ λͺ¨λΈμ λμμΈ νμ΅λλ€.
μ¦ y = GPA, x1 = SAT score μΈ κ²μ΄μ£ .
(SAT μ μμ λ²μλ 400 ~ 1600μ μ΄μ§λ§, μ°λ¦¬μ λͺ¨λΈμμλ μ κΉ λ¬΄μνκ² μ΅λλ€)
SATμμ 2000μ μ λ°μ νμμ κ²½μ°μλ,
yΜ = 0.275+ 0.0017*2000 = 3.675 μ΄λ―λ‘
λν μ‘Έμ μ 3.675μ νμ μ κ°μ§ κ²μΌλ‘ μμν΄λ³Ό μ μκ² λ€μ.
λ€μ νλ‘ λμκ°μ, λλ¨Έμ§λ₯Ό μ΄ν΄λ΄ μλ€.
std errλ standard error, νμ€ μ€μ°¨λ₯Ό 보μ¬μ€λλ€.
μ΄ νμ€ μ€μ°¨κ° 0μ κ°κΉμΈ μλ‘ μμΈ‘ λͺ¨λΈμ΄ μ νν¨μ μλ―Ένκ³ , 컀μ§μλ‘ μ€λ₯κ° λμ΄λ©λλ€.
t μ P>|t| μ κ²½μ°μλ Hypothesis Testing (κ°μ€ κ²μ )μ κ°λ μ΄ λ€μ΄κ°λλ€.
Sample data(μ‘°μ¬ν νμλ€μ SAT, GPA)λ₯Ό λ°νμΌλ‘ Population(μ 체 νμμ SAT, GPA)λ₯Ό μμΈ‘νλ €κ³ νλλ°, Population variance (or standard deviation)μ μ μ μλ μν©μ΄μ£ ?
μ΄λ΄ λ μ°λ¦¬λ μ΄λ€ λΆμ°μ μ¬μ©νλμ§ κΈ°μ΅μ΄ λμλμ?
λ°λ‘ Student's T-Distributionμ μ¬μ©νμμ΅λλ€.
Null Hypothesis (H0): β=0
Alternative Hypothesis (H0):β≠0
μ¬κΈ°μ βλ κ° Coefficient, b0κ³Ό b1μ μλ―Έν©λλ€.
const μ coefficient b0μ 0μΌλ‘ κ°μ νμ λ (null hypothesis), p-valueκ° 0.503μ΄κ³ ,
x1(SAT μ μ)μ coefficient b1μ 0μΌλ‘ κ°μ νμ λ, p-valueλ 0.000μ λλ€.
μ΄κ² λ¬΄μ¨ λ»μ΄λλ©΄, μ°λ¦¬κ° significance levelμ ν΅μ 5%=0.05λ‘ μ€μ μ νκΈ° λλ¬Έμ,
0.05λ³΄λ€ μμ p-valueλ 'λ°μ΄ν°λ€μ κ΄κ³κ° statistically significantνλ€' λ₯Ό μλ―Έν©λλ€.
μ¦, x1μ κ²½μ° 0.000<0.05μ΄κΈ° λλ¬Έμ SAT μ μμ GPA μ¬μ΄μ κ΄κ³κ° ν΅κ³μ μΌλ‘ μ μλ―Ένλ€λ κ² μ λλ€.
κ·Έλ₯ μ½κ² λ§ν΄μ μμΈ‘ ν μ μλ κ΄κ³κ° μλ€κ³ μ΄ν΄νλ©΄ λ κ² κ°μ΅λλ€.
κ·Έλ λ€λ©΄, x0μ κ³μ b0μ p-valueλ 0.05λ³΄λ€ νμ°Έ ν° 0.503μΈλ° μ΄λ»κ² λ κ²μΌκΉμ?
b0μ κΈ°λ³Έμ μΌλ‘ y-interceptλ₯Ό 보μ¬μ€λλ€.
μ°λ¦¬λ xiλ€κ³Ό yμ μΈκ³Όκ΄κ³λ₯Ό ν΅ν΄μ κ°μ μμ보λλ° λͺ©νκ° μμ΅λλ€.
κ·Έλ κΈ° λλ¬Έμ μΌλ°μ μΌλ‘ μ°λ¦¬λ μμ coefficient b0μ κ²½μ°μλ μ΄ κ³Όμ μ κ±°μΉμ§ μμ΅λλ€.
λ§μ½ b0μ κ²½μ°μλ λμΌνκ² κ³ λ €νλ€λ©΄, y-intercept(b0) = 0μΌλ‘ μ€μ ν΄μΌ νλ―λ‘,
μ°λ¦¬ λͺ¨λΈμ κ·Έλνμ x,yμΆκ³Όμ κ΅μ μ΄ μμ μΈ (0,0)μμ λ§λλ 1μ°¨ν¨μκ° λκ² λ€μ.
μ½κ² λ§ν΄μ, κ·Έλ₯ μμμ κ²½μ°μλ λ³΄ν΅ μ κ²½μ°μ§ μλλ€κ³ μΌλ¨ μκ°ν΄λ λ κ² κ°μ΅λλ€.
μ΄λ² ν¬μ€νΈμμλ Coefficient Tableμ λν΄μ κ°λ΅νκ² μμ보μμ΅λλ€.
λ€μ ν¬μ€νΈμμλ μ°λ¦¬κ° λ§λ μ ν νκ· λͺ¨λΈμ μ νλλ₯Ό νκ°νλ λ°©λ²λ€μ λν΄μ μμλ³΄κ² μ΅λλ€.
'Data Science > Python' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
Linear Regression (μ ν νκ·) - 2 | Simple Linear Regression (λ¨μ μ ν νκ·) (0) | 2024.06.02 |
---|---|
Linear Regression (μ ν νκ·) - 1 | ν¨ν€μ§ μμ보기 (0) | 2024.06.02 |