Confidence Interval is the interval of estimates of a parameter.
It's based on random sampling.
가장 널리 사용되는 것은 95% Confidence Interval 입니다.
Here, '95%' is called the confidence level.
- it could be any percent between 0 - 100.
- Higher confidence level means wider intervals.
Confidence interval can be considered 'Good' if it contains the parameter.
The confidence is in the process that creates the interval:
It generates a 'good' interval about 95% of time. (for 95% confidence level)
예시를 한번 살펴보겠습니다.
특정 국가의 산모의 출산 당시 평균 연령을 with 95% confidence level로 구했더니, (26.9, 27.6)을 도출했다고 하겠습니다.
그렇다면, 이것은 해당 국가의 전체 산모 (population)의 평균 연령이 (26.9, 27.6) interval 내에 존재할 확률이 95%임을 뜻할까요?
다시 말해, 95% 확률로 parameter가 confidence interval에 포함되어 있다고 해석하면 될까요?
이것은 틀렸습니다.
최종 Confidence Interval을 도출한 순간, 그 이후로 확률은 없습니다.
Population parameter는 constant입니다.
국가 전체 산모의 평균 연령은 변수가 아니고 정해진 하나의 숫자입니다.
최종 Confidence Interval 또한 결국 하나의 고정된 범위입니다.
즉, 확률은 없고
1. Confidence Interval에 parameter가 존재한다.
2. Confidence Interval에 parameter가 존재하지 않는다.
이 두가지 경우 중 하나가 참이고 하나는 거짓인 상황이지, 확률은 없습니다.
그렇다면, 95% confidence를 어떤 식으로 interpret해야 할까요?
우리는 이렇게 말할 수 있습니다.
"If I were to draw a random sample and compute the confidence interval, there would be 95% probability that the randomly constructed confidence interval contains parameter.'
즉, '내가 무작위 샘플을 뽑고 해당 샘플에서 95% 신뢰 구간을 계산하면, 해당 신뢰 구간에 parameter가 포함 될 확률은 95%이다.' 입니다. '
차이점이 무엇이냐면, [랜덤 샘플링 + 해당 샘플로 신뢰 구간 계산] 의 과정에 확률이 포함된 것입니다.
우리가 신뢰 구간을 계산하는 것을 마친 순간, 더 이상 무작위성은 없고 확률은 없습니다.
'Data Science > 개념과 용어' 카테고리의 다른 글
Slope and Y-intercept of The Regression Line | 회귀선의 기울기와 y절편 (0) | 2024.11.25 |
---|---|
Trend, Pattern, and The Correlation Coefficient (r) (1) | 2024.11.15 |
A/B Testing (0) | 2024.10.29 |
The Bootstrap Technique | 부트스트랩 (2) | 2024.10.23 |
What is Data Science? (1) | 2024.09.09 |