확률이란 그 정의에서 이미 아시다시피, 어떤 특정 이벤트 x가 발생할 가능성을 숫자로 나타낸 것 입니다.
우리는 미래에 벌어질 일의 확률들을 수적으로 비교해서, 더욱 높은 확률이 어떤 것 인지를 알아냄으로써 미래를 예측하고자 합니다.
우리는 어떠한 사건 x가 절대로 발생하지 않는다는 것을 확률이 0이다. 라고 표현합니다.
그리고 우리는 어떠한 사건 x가 무조건 발생한다는 것을 확률을 1이다. 라고 표현합니다.
즉 모든 확률은 0~1의 값을 가지고, 보통 우리의 데이터는 0과 1은 아니겠죠?
계산과 비교의 편의성을 위해, 우리는 30%, 1/5, 이런 수로 확률을 표현하기보다 0.2, 0.53과 같은 소수로 표현하기를 선호합니다.
특정 이벤트 x에 대해서 우리는,
x가 일어날 확률을 P(x)로 표기하고,
P(x) = (원하는 이벤트가 생길 확률) / (모든 확률) 입니다.
이 모든 확률을 우리는 Sample Space(표본 공간) 이라고 합니다.
예시를 통해서 설명하겠습니다.
이벤트 x = '동전을 던져서 앞면이 나올 확률' 이라고 했을 때, P(x) = 0.5이겠죠?
(동전이 한쪽 면이 나올 확률은 정확히 0.5이고, 세로로 스는 경우가 없다고 가정하겠습니다.)
이번에는 x='주사위에서 2가 나올 확률' 이라고 했을 때, P(x) = (2가 나올 확률) / (전체 확률) = 1/6 = 0.1667 입니다.
전체 확률, sample space는 총 1~6까지 6개가 나올 수 있으므로 6이 되겠죠?
x = '주사위에서 3의 배수가 나올 확률' 이라고 하면, P(x) = (3, 6이 나올 확률) / (전체 확률) = 2/6 = 1/3 = 0.3333입니다.
간단하죠?
자 그럼 또 다른 중요한 개념인 Independence(독립성)에 대해서 말해보겠습니다.
우리는 이벤트 A와 B가 발생할 확률이 서로에게 영향을 주지 않는다면 (independent), 다음과 같은 관계가 발생합니다.
P(A and B) = P(A) * P(B)
예를 들어 카드(52장)에서 한 장의 카드를 뽑았는데 스페이드 에이스일 확률을 구한다면,
P(스페이드 에이스) = P(스페이드) * P(에이스) = 1/4 * 1/13 = 1/52 가 되겠습니다.
52장 중 1장이 스페이드 에이스니까, P(스페이드 에이스) = 1/52가 맞겠죠?
반대로 independent 하지 않은 두 확률 A 와 B는 다른 식으로 발생합니다.
예를 들어, 카드 덱에서 스페이드를 두번 연속 뽑을 확률을 계산해볼까요? (뽑은 카드는 다시 넣지 않습니다)
그 경우 총 확률은 P(A and B) = (A: 처음 스페이드를 뽑을 확률) * (B: 두번째에서 스페이드를 뽑을 확률) 입니다.
P(A) = 1/4이고, P(B) = (13-1)/(52-1) = 12/51 = 4/17 입니다.
즉, 두번 연속 스페이드를 뽑을 확률은 1/4 * 4/17 = 1/17입니다.
B에서 Sample Space가 1 감소하였다는 것이 키 포인트겠네요.
우선 확률과 sample space, 그리고 매우 간단한 표기법을 알아보았습니다.
아주 기초적인 부분이기 때문에 쉽게 이해할 수 있겠습니다.
'Data Science > 통계' 카테고리의 다른 글
Variation (Combinatorics) | 바리에이션 (0) | 2024.05.19 |
---|---|
Permutation and Factorial | 순열과 팩토리얼 (0) | 2024.05.19 |
Complements | 여집합 (0) | 2024.05.19 |
Frequency | 빈도 (0) | 2024.05.19 |
Expected Values | 예측값 (0) | 2024.05.19 |