일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오블완
- string
- programming
- baekjoon
- predictive analysis
- 배열
- 반복문
- 티스토리챌린지
- 함수
- Python
- Deep Learning
- 포인터
- pass by reference
- pointer
- Pre-processing
- Data Science
- Object Oriented Programming
- raw data
- 문자열
- function
- vscode
- assignment operator
- 알고리즘
- C++
- const
- 백준
- array
- 파이썬
- OOP
- Class
- Today
- Total
Channi Studies
Linear Regression (선형 회귀) - 1 | 패키지 알아보기 본문
이번 포스트에서는 파이썬을 사용해서 기초적 선형 회귀 모델을 구현하는데 필요한 패키지들을 알아보겠습다.
선형 회귀의 매우 기초적 개념에 대해서는 다음 포스트에 정리되어 있습니다.
Regression Analysis - Linear Regression | 회귀 분석 - 선형 회귀
Linear Regression(선형 회귀): 2개 이상의 변수들 사이에서의 인과 관계에 대한 선형 근사 (예측)A linear approximation of a causal relationship between two or more variables. 선형 회귀의 과정1. Sample data를 수집한다.2
code-studies.tistory.com
패키지 설치 및 import
우선 선형 회귀 모델을 디자인하는데 필요한 주요 파이썬 패키지들부터 설치하고 알아보겠습니다.
import numpy as np
import pandas as pd
import scipy
import statsmodels.api as sm
import matplotlib as plt
import seaborn as sns
import sklearn
위 패키지들 중에서, 존재하지 않는 패키지가 존재한다면
pip install [package_name], 또는 pip3 install [package_name],
또는 anaconda를 사용 중이라면 conda install [package_name]
으로 설치해 주시면 되겠습니다.
여기서, 몇가지 중요한 패키지에 대해서 대략적으로만 알고 가겠습니다.
1. Numpy
Numpy는 고차원 배열을 쉽게 다루게 도와주어, 대량의 데이터를 다루는데 도움을 주는 패키지입니다.
2. Pandas
Pandas는 우리가 데이터를 정리하고, 설명하는 descriptive label을 각 행과 열에 부여할 수 있도록 도와줍니다.
Pandas 역시 대량의 데이터를 다루는데 큰 도움을 줍니다.
3. matplotlib
우리가 모델을 디자인 했다면, 그 모델을 시각적으로도 확인하고 싶겠죠?
matplotlib은 2차원 평면에서 Numpy 연산들을 시각화해주는 것을 도와주는 라이브러리 입니다.
여러가지 그래프들을 numpy와 matplotlib을 통해서 시각화 할 수 있습니다.
위 numpy, pandas, matplotlib 라이브러리들은 모두 scipy 생태계의 일부입니다.
대충 설명하자면, Scipy는 공학적 계산을 위한 다양한 도구들이 존재하는 파이썬 생태계입니다.
수학, 공학, 과학, 머신 러닝, 그외 다양한 분야에서 사용될 수 있는 파이썬 생태계정도라고 생각하면 되겠습니다.
4. Seaborn
Seaborn은 matplotlib에 기반을 둔 파이썬 시각화 라이브러리입니다.
보다 매력적인 시각화를 위한 높은 수준의 인터페이스를 제공합니다.
우리는 matplotlib으로 프로그래밍을 하겠지만, seaborn의 디자인을 활용할 것 입니다.
5. StatsModels
StatsModels는 Numpy와 Scipy를 기반으로 하는 패키지입니다.
교육 면에서 매우 좋은 summary를 제공하기 때문에, 우리는 주로 이 StatsModels로 회귀 모델을 디자인할 것 입니다.
6. sklearn (scikit-learn)
sklearn은 가장 널리 사용되는 파이썬 머신 러닝 라이브러리 중 하나입니다.
우리는 우선 StatsModels로 회귀 모델을 만들고 살펴볼 것이고, 비슷한 일을 하는 코드를 sklearn으로도 알아볼 것 입니다.
진짜 중요한 것은 sklearn이고, StatsModels는 비교적 이해가 쉽기 때문에 교육을 위해서 활용할 것 입니다.
다음 포스트에서는 차근차근 직접 회귀 모델을 디자인하는걸 알아보겠습니다.
'Data Science > Python' 카테고리의 다른 글
Linear Regression (선형 회귀) -3 | Coefficients Table (1) | 2024.06.03 |
---|---|
Linear Regression (선형 회귀) - 2 | Simple Linear Regression (단순 선형 회귀) (0) | 2024.06.02 |