Data Science

Correlation Analysis(상관 분석)과  Regression Analysis(회귀 분석)간의 차이는 한 문장으로 정리할 수 있습니다. "Correlation does not imply causation"상관 관계는 인과 관계를 의미하지 않는다. 더 자세하게 설명하자면,1. Correlation은 두 변수(variable) 사이의 relationship의 정도를 측정하는 반면, Regression은 특정 변수가 다른 변수에 어떠한 영향을 끼치는지를 측정합니다.2. Correlation은 두 변수 사이의 인과 관계를 측정하는것이 아닌, 관계성의 정도를 측정합니다 (move together). 반면 Regression은 두 변수 사이의 연관성의 정도가 아닌 인과 관계를 직접 측정합니다 (cause..
Linear Regression(선형 회귀): 2개 이상의 변수들 사이에서의 인과 관계에 대한 선형 근사 (예측)A linear approximation of a causal relationship between two or more variables. 선형 회귀의 과정1. Sample data를 수집한다.2. 해당 샘플에 맞는 모델을 디자인 한다.3. 해당 모델으로 전체 population에 대한 예측을 한다. 선형 회귀에서 예측하는 값 y 는 dependent variable(종속 변수) 이고, (x1, x2, ..., xk)는 independent variable(독립 변수) 라고 부릅니다.y 는 x들에 대한 함수로 표현됩니다. => y = f(x1, x2, ..., xk)  우선 Simple L..
Binomial Distribution은 Bernoulli Distribution with mutliple trials로 이해하면 좋습니다.For a random variable X, 이벤트의 결과가 두개의 옵션밖에 존재하지 않는다면, 이를 우리는 베르누이 분포라고 부릅니다.확률 p에 대하여 X~Bern(p)로 표기하고, 이는 X~B(1,p)와 동일합니다. 베르누이 분포에 대해서 조금만 더 알아보자면,E(x) = 1*p + 0*(1-p) = p Variance = p(1-p)STDEV = sqrt(p(1-p))입니다. 관례적으로 우리는 두개의 결과 중 더욱 확률이 높은 결과를 p로, 그렇지 않은 것을 1-p, 혹은 q로 나타냅니다.또한, 우리는 베르누이 분포를 적용하고 싶은 상황에, 각 이벤트에 1과 0..
우리에게 nCr로 더욱 친숙한 조합은, 한 집합에서 특정 요소들을 뽑을 수 있는 가짓수를 칭합니다.여기서 중요한 점은 permutation과는 다르게 순서가 중요하지 않다라는 점 입니다. 예를 들어 학교에서 우리 반의 대표 학생을 3명 뽑는다고 했을 때, 뽑히는 순서는 아무런 상관이 없겠죠? 3명의 학생이 [김준수, 최나영, 박민지] 라고 하면, 이는 [김준수, 박민지, 최나영]을 뽑았을 때나 [박민지, 최나영, 김준수]를 뽑았을 때나 같은 조합입니다. 그렇죠? Combinations 공식 nCr은 다음과 같습니다.nCr = n! / (n-r)! * r!         (중복 허용 X) 우리의 예시에서 우리 반의 총 학생 수를 10명이라고 해봅시다.그렇다면 n = 10, r = 3이 되고, 10C3 = ..
Ricky U. Lee
'Data Science' 카테고리의 글 목록 (3 Page)