Channi Studies

확률(Probability) 본문

Data Science/통계

확률(Probability)

Chan Lee 2024. 5. 19. 08:52

확률이란 그 정의에서 이미 아시다시피, 어떤 특정 이벤트 x가 발생할 가능성을 숫자로 나타낸 것 입니다.

우리는 미래에 벌어질 일의 확률들을 수적으로 비교해서, 더욱 높은 확률이 어떤 것 인지를 알아냄으로써 미래를 예측하고자 합니다.

 

우리는 어떠한 사건 x가 절대로 발생하지 않는다는 것을 확률이 0이다. 라고 표현합니다.

그리고 우리는 어떠한 사건 x가 무조건 발생한다는 것을 확률을 1이다. 라고 표현합니다.

즉 모든 확률은 0~1의 값을 가지고, 보통 우리의 데이터는 0과 1은 아니겠죠?

 

계산과 비교의 편의성을 위해, 우리는 30%, 1/5, 이런 수로 확률을 표현하기보다 0.2, 0.53과 같은 소수로 표현하기를 선호합니다.

 

 

특정 이벤트 x에 대해서 우리는,

x가 일어날 확률을 P(x)로 표기하고,

P(x) =  (원하는 이벤트가 생길 확률) / (모든 확률) 입니다.

모든 확률을 우리는 Sample Space(표본 공간) 이라고 합니다.

 

 

예시를 통해서 설명하겠습니다.

이벤트 x = '동전을 던져서 앞면이 나올 확률' 이라고 했을 때, P(x) = 0.5이겠죠?

(동전이 한쪽 면이 나올 확률은 정확히 0.5이고, 세로로 스는 경우가 없다고 가정하겠습니다.)

 

이번에는 x='주사위에서 2가 나올 확률' 이라고 했을 때, P(x) = (2가 나올 확률) / (전체 확률) = 1/6 = 0.1667 입니다.

전체 확률, sample space는 총 1~6까지 6개가 나올 수 있으므로 6이 되겠죠?

x = '주사위에서 3의 배수가 나올 확률' 이라고 하면, P(x) = (3, 6이 나올 확률) / (전체 확률) = 2/6 = 1/3 = 0.3333입니다.

간단하죠?

 

 

자 그럼 또 다른 중요한 개념인 Independence(독립성)에 대해서 말해보겠습니다.

우리는 이벤트 A와 B가 발생할 확률이 서로에게 영향을 주지 않는다면 (independent), 다음과 같은 관계가 발생합니다.

P(A and B) = P(A) * P(B) 

 

예를 들어 카드(52장)에서 한 장의 카드를 뽑았는데 스페이드 에이스일 확률을 구한다면, 

P(스페이드 에이스) = P(스페이드) * P(에이스) = 1/4 * 1/13 = 1/52 가 되겠습니다.

52장 중 1장이 스페이드 에이스니까, P(스페이드 에이스) = 1/52가 맞겠죠?

 

 

반대로 independent 하지 않은 두 확률 A 와 B는 다른 식으로 발생합니다.

예를 들어, 카드 덱에서 스페이드를 두번 연속 뽑을 확률을 계산해볼까요? (뽑은 카드는 다시 넣지 않습니다)

그 경우 총 확률은 P(A and B) = (A: 처음 스페이드를 뽑을 확률) * (B: 두번째에서 스페이드를 뽑을 확률) 입니다.

P(A) = 1/4이고, P(B) = (13-1)/(52-1) = 12/51 = 4/17 입니다.

즉, 두번 연속 스페이드를 뽑을 확률은 1/4 * 4/17 = 1/17입니다.

B에서 Sample Space가 1 감소하였다는 것이 키 포인트겠네요.

 

 

우선 확률과 sample space, 그리고 매우 간단한 표기법을 알아보았습니다.

아주 기초적인 부분이기 때문에 쉽게 이해할 수 있겠습니다.

'Data Science > 통계' 카테고리의 다른 글

Variation (Combinatorics) | 바리에이션  (0) 2024.05.19
Permutation and Factorial | 순열과 팩토리얼  (0) 2024.05.19
Complements | 여집합  (0) 2024.05.19
Frequency | 빈도  (0) 2024.05.19
Expected Values | 예측값  (0) 2024.05.19