일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 배열
- 오블완
- string
- 알고리즘
- Class
- Data Science
- 반복문
- predictive analysis
- programming
- raw data
- vscode
- C++
- pass by reference
- 백준
- array
- Pre-processing
- pointer
- 티스토리챌린지
- 포인터
- Python
- Deep Learning
- function
- 문자열
- baekjoon
- 함수
- const
- Object Oriented Programming
- 파이썬
- assignment operator
- OOP
- Today
- Total
목록Data Science/개념과 용어 (22)
Channi Studies
Correlation Analysis(상관 분석)과 Regression Analysis(회귀 분석)간의 차이는 한 문장으로 정리할 수 있습니다. "Correlation does not imply causation"상관 관계는 인과 관계를 의미하지 않는다. 더 자세하게 설명하자면,1. Correlation은 두 변수(variable) 사이의 relationship의 정도를 측정하는 반면, Regression은 특정 변수가 다른 변수에 어떠한 영향을 끼치는지를 측정합니다.2. Correlation은 두 변수 사이의 인과 관계를 측정하는것이 아닌, 관계성의 정도를 측정합니다 (move together). 반면 Regression은 두 변수 사이의 연관성의 정도가 아닌 인과 관계를 직접 측정합니다 (cause..

Linear Regression(선형 회귀): 2개 이상의 변수들 사이에서의 인과 관계에 대한 선형 근사 (예측)A linear approximation of a causal relationship between two or more variables. 선형 회귀의 과정1. Sample data를 수집한다.2. 해당 샘플에 맞는 모델을 디자인 한다.3. 해당 모델으로 전체 population에 대한 예측을 한다. 선형 회귀에서 예측하는 값 y 는 dependent variable(종속 변수) 이고, (x1, x2, ..., xk)는 independent variable(독립 변수) 라고 부릅니다.y 는 x들에 대한 함수로 표현됩니다. => y = f(x1, x2, ..., xk) 우선 Simple L..
Data Scientist가 하는 일을 더 잘 이해하기 위해서, Data 와 관련된 여러 직업들을 함께 알아보겠습니다. Data ArchitectData architect는 사용될 데이터셋을 처음부터 디자인해 나갑니다.데이터가 어떤 방식으로 탐색되고 사용되고 분석될지를 구상합니다. Data Engineer데이터 엔지니어는 획득된 데이터(raw data)를 처리(processing)하여 분석(analysis)에 사용될 수 있게끔 합니다.데이터 엔지니어가 처리를 마친 데이터셋은 데이터 분석과 관련된 업무를 맡는 사람들에게 넘겨집니다.깨끗하고 정리된 데이터셋을 만드는 것이 중요합니다. Data Administrator데이터 관리자는 데이터베이스의 데이터의 흐름 (추가와 제거)를 관리합니다.분석에 사용되는 데이..
데이터 사이언스 분야에서는 다양한 프로그래밍 언어와 소프트웨어들이 사용됩니다. Programming Languages프로그래밍 언어의 활용은 데이터 사이언티스트가 원하는 프로그램을 직접 구현할 수 있도록 도와줍니다.제가 블로그에서 데이터 사이언스 공부를 위해 사용하게 될 파이썬이 가장 대표적이라고 할 수 있겠네요. 현재 세계적으로 데이터 사이언스에서 가장 널리 사용되는 프로그래밍 언어는 Python과 R입니다.이 두가지 언어의 가장 큰 장점은 매우 유연하여 여러가지 상황에 대한 분석을 아우를 수 있다는 것 입니다.특히 수학적, 통계학적 연산에 뛰어납니다. 하지만, 반면 특정 문제들에 대해서는 분석할 수 없는 경우도 존재합니다.SQL은 relational database를 관리 시스템을 사용할 때 활용하도..