The main goal of data science is learning about the world from data using computational methods.There are 3 key parts of data science. - ExplorationIdentifying patterns in dataUses visulizations - InferenceQuantifying whether those patterns are reliableUses randomization - PredictionMaking informed guesses about unobserved dataUses machine learning There are two important concepts about the re..
μ 체 κΈ
Python, C++, Data Science κ³΅λΆ λΈλ‘κ·Έ μ λλ€.μ΄λ² ν¬μ€νΈμμλ μ ν νκ· λͺ¨λΈμ μ μ©νκΈ° μν λͺκ°μ§μ ν΅μ¬ κ°μ λ€μ μμλ³΄κ² μ΅λλ€.μ΄ κ°μ λ€μ΄ μ¬μ€μ΄ μλλΌλ©΄, μ΅μμ κ³±λ²μ μ μ©νμ¬ λͺ¨λΈμ λμμΈ νμ λ 무μλ―Ένκ³ λΆμ νν κ²°κ³Όκ°μ΄ λμΆλ κ²μ΄λ―λ‘ μ΄ μ λ€μ μ μνλκ² μ’κ² μ΅λλ€. 1. Linearity (μ νμ±)μ΄λ¦λΆν°κ° μ ν νκ·μμμ? κ° λ
립 λ³μλ κ³ μ ν κ³μκ° κ³±ν΄μ§κ³ , μ΄λ₯Ό λ€ ν©ν΄μ μ’
μλ³μλ₯Ό λμΆν©λλ€. μ νμ±μ νλ¨νλ μ¬μ΄ λ°©λ²μ 무μμΌκΉμ? λ
립 λ³μ μ€ νλ(x1)λ₯Ό λ½μμ μ’
μ λ³μ(y)μ λν΄μ scatter plotμ κ·Έλ €λ³΄μΈμ. κ·ΈλΌ μΌμΆ λ°©ν₯μ±μ΄ 보μΌν
λ°, μ΄κ² μΌμ°¨ν¨μλ©΄ μ νμ±μ΄ μλ κ²μ΄κ³ , 곑μ μ΄ λ³΄μ΄λ©΄ μ νμ±μ΄ λΆμ‘±ν λ°μ΄ν°κ² μ£ ?κ·Έλ¦¬κ³ κ·Έλ° κ²½μ°μλ μ ν νκ·κ° μλ λ€λ₯Έ λ°©λ²μ ν΅ν΄μ μμΈ‘ λͺ¨λΈμ λμ..
μ§λ ν¬μ€νΈμμλ R-squared, κ²°μ κ³μμ λν΄μ μμ보μμ΅λλ€.μ΄λ μ°λ¦¬μ νκ· λͺ¨λΈμ΄ μ€μ λ°μ΄ν°μ λΆμ°μ μΌλ§λ μ μ€λͺ
νλμ§λ₯Ό λνλΈ κ°μΌλ‘, SST/SSR μ΄μμ΅λλ€. Linear Regression (μ ν νκ·) - 6 | R-Squared (κ²°μ κ³μ)μ§λ ν¬μ€νΈμμλ OLS, μ΅μ μ κ³±λ²μ λν΄μ κ°λ¨νκ² μμ보μμ΅λλ€. Linear Regression (μ ν νκ·) - 5 | Ordinary Least Squares (μ΅μμ κ³±λ²)μ λ² ν¬μ€νΈμμλ SST, SSR, SSEμ κ΄κ³μ λν΄μ μμ보μμ΅code-studies.tistory.com μ΄λ² ν¬μ€νΈμμλ μμ λ κ²°μ κ³μ, Adjusted R Squaredμ λν΄μ μμλ³΄κ² μ΅λλ€.μ°λ¦¬κ° μμ£Ό 보λ μ΄ Regerssion summa..
μ§λ ν¬μ€νΈμμλ OLS, μ΅μ μ κ³±λ²μ λν΄μ κ°λ¨νκ² μμ보μμ΅λλ€. Linear Regression (μ ν νκ·) - 5 | Ordinary Least Squares (μ΅μμ κ³±λ²)μ λ² ν¬μ€νΈμμλ SST, SSR, SSEμ κ΄κ³μ λν΄μ μμ보μμ΅λλ€. Linear Regression (μ ν νκ·) - 4 | SST = SSR + SSEμ λ² ν¬μ€νΈμμλ μ ν νκ· λͺ¨λΈμ λμμΈ νλ κ³Όμ μμ StatsModels λΌμ΄λΈλ¬λ¦¬λ₯Ό νcode-studies.tistory.com μ΄λ² ν¬μ€νΈμμλ κ²°μ κ³μ, R Squaredμ λν΄μ μμλ³΄κ² μ΅λλ€.4λ² ν¬μ€νΈμμ SST (Total Variability) = SSR (Explained Variability) + SSE (Unexplained Variabil..