Data science์์๋ population์ unknown parameter๋ฅผ estimate ํ๋ ๊ฒ์ด ๋ชฉํ์ผ ๋๊ฐ ๋ง์ต๋๋ค.
์๋ฅผ ๋ค์ด ์ ๊ตญ๋ฏผ์ ์๋์ estimate ํ๊ณ ์ถ๋ค๊ณ ํด๋ณด๊ฒ ์ต๋๋ค.
์ค์ ์๋์ ๊ตฌํด์ ์ด๋ฅผ ์งํ๋ก ์ฌ์ฉํ๋ ค๊ณ ํ๋ค๊ณ ํ๊ฒ ์ต๋๋ค.
1. If you have a census:
Just calculate the parameter from the census, and you're done.
Population ๋ฐ์ดํฐ๊ฐ ์ค๋น ์๋ฃ ๋์๋ค๋ฉด, ๋ฐ๋ก ๊ณ์ฐ๋ง ํ๋ฉด ๋ฉ๋๋ค.
ํ์ง๋ง, ์ด๋ฐ ๊ฒฝ์ฐ๊ฐ ๋น์ฐํ ํํ์ง ์๊ฒ ์ฃ ?
2. If you don't have a census:
Take a random sample from the population.
Usa a statistic as an estimate of the parameter.
ํ์ง๋ง, ์ฐ๋ฆฌ๋ ํ์ค์์ ๋ง์ ์์ sample์ผ๋ก๋ถํฐ ์ ๋ณด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์งํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
Sampling ๊ณผ์ ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ์ํ๋ง์ ์ต์ํ ํ๊ณ ์ถ์ต๋๋ค.
๊ทธ๋ด ๋, The Bootstrap technique, re-sampling method๊ฐ ํ์ฉ๋ ์ ์์ต๋๋ค.
The bootstrap is a technique for simulating repeated random sampling.
๋ถํธ์คํธ๋ฉ์ ํ๋ณธ์์ ๋ณต์์ถ์ถ์ ๋ฐ๋ณตํ์ฌ ์ถ๊ฐ์ ์ธ ํ๋ณธ์ ์ถ์ถํ์ฌ ์ ์ฒด ํ๋ณธ์ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
All that we have is the original sample, which is large and random.
์ฐ๋ฆฌ๋ 1ํ ์์งํ ์๋ณธ ์ํ์ด ์กด์ฌํ๊ณ , ์ด ์ํ์ ์ํ ์ฌ์ด์ฆ๊ฐ ํฌ๊ณ ๋ฌด์์๋ก ์์ง๋์์ต๋๋ค.
์ด๋ฐ ๊ฒฝ์ฐ, ํด๋น ์๋ณธ ์ํ์ ๋งค์ฐ ํ์คํ๊ฒ population์ distribution์ ๋ฎ์ ๊ฒ ์ ๋๋ค.
So, we can sample at random from the original sample. (More sample from the sample)
์ฆ, ์ฐ๋ฆฌ๋ ํด๋น ์๋ณธ ์ํ์์ ์ํ์ ์ถ๊ฐ๋ก ์ถ์ถํ๋ ๊ฒ์ผ๋ก population์์ sampling์ ํ๋ ๊ฒ์ ๋์ฒดํ ์ ์์ต๋๋ค.
Re-sampling from the original random sample โฉฌ Sampling from the population (with high probability)
Bootstrap technique๋ก ์ถ์ถ๋ ์ถ๊ฐ ํ๋ณธ๋ค์ "๋์ ํ๋ฅ ๋ก" ๋ชจ์ง๋จ์์ ์ถ์ถํ ํ๋ณธ๊ณผ ์ ์ฌํฉ๋๋ค.
์ฆ, ๋งค์ฐ ๋ฎ์ ํ๋ฅ ์ด์ง๋ง ๋ถ๋ช ํ ์ถ๊ฐ ํ๋ณธ๋ค์ด population์ ์ ์ ํ๊ฒ representํ์ง ๋ชปํ ์ ์๊ณ , wrong conclusion์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
It is important to do re-sampling with replacement.
Also, the size of the new sample has to be the same as the original one, so that the two estimates are comparable.
Using <datscience> module,
The default behavior of tbl.sample():
at random with replacement, the same number of times as rows of tbl.
So we can simply use original_sample.sample() to get the bootstrap samples.
'Data Science > ๊ฐ๋ ๊ณผ ์ฉ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
How to Interpret Confidence Interval | ์ ๋ขฐ ๊ตฌ๊ฐ์ ํด์ (2) | 2024.11.01 |
---|---|
A/B Testing (0) | 2024.10.29 |
What is Data Science? (1) | 2024.09.09 |
Linear Regression (์ ํ ํ๊ท) - 8 | Assumptions (์ ํ ํ๊ท ๊ฐ์ ) (1) | 2024.06.12 |
Linear Regression (์ ํ ํ๊ท) - 7 | Adjusted R-Squared (์์ ๋ ๊ฒฐ์ ๊ณ์) (0) | 2024.06.12 |