A/B testing is a type of experiment in Data Science that compare values of sampled individuals in Group A with values of sampled individuals in Group B.Q. Do the two sets of values come from the same underlying distribution? ์๋ฅผ ๋ค์ด, ๋ํ๋ฏผ๊ตญ์ A ์ง์ญ์์ ์ํ๋ง์ ํตํด ์ธก์ ํ ํ๊ท ์ ์ฅ์ด 165cm, B ์ง์ญ์์๋ 170cm๋ผ๊ณ ํด๋ณด๊ฒ ์ต๋๋ค. (observed statistic)์ฌ๊ธฐ์, A์ B ์ง์ญ์ ํ๊ท ์ ์ฅ ์ฐจ์ด๊ฐ same underlying distribution (๋ํ๋ฏผ๊ตญ ์ ์ฒด ์ ์ฅ ๋ถํฌ) ์์ ๋น๋กฏ๋ ๊ฒ์ผ๋ก ํ๋จ..
Data Science
Data science์์๋ population์ unknown parameter๋ฅผ estimate ํ๋ ๊ฒ์ด ๋ชฉํ์ผ ๋๊ฐ ๋ง์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ ๊ตญ๋ฏผ์ ์๋์ estimate ํ๊ณ ์ถ๋ค๊ณ ํด๋ณด๊ฒ ์ต๋๋ค. ์ค์ ์๋์ ๊ตฌํด์ ์ด๋ฅผ ์งํ๋ก ์ฌ์ฉํ๋ ค๊ณ ํ๋ค๊ณ ํ๊ฒ ์ต๋๋ค. 1. If you have a census: Just calculate the parameter from the census, and you're done. Population ๋ฐ์ดํฐ๊ฐ ์ค๋น ์๋ฃ ๋์๋ค๋ฉด, ๋ฐ๋ก ๊ณ์ฐ๋ง ํ๋ฉด ๋ฉ๋๋ค. ํ์ง๋ง, ์ด๋ฐ ๊ฒฝ์ฐ๊ฐ ๋น์ฐํ ํํ์ง ์๊ฒ ์ฃ ? 2. If you don't have a census: Take a random sample from the population. Usa a statistic as..
The main goal of data science is learning about the world from data using computational methods.There are 3 key parts of data science. - ExplorationIdentifying patterns in dataUses visulizations - InferenceQuantifying whether those patterns are reliableUses randomization - PredictionMaking informed guesses about unobserved dataUses machine learning There are two important concepts about the re..
์ด๋ฒ ํฌ์คํธ์์๋ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์ ์ฉํ๊ธฐ ์ํ ๋ช๊ฐ์ง์ ํต์ฌ ๊ฐ์ ๋ค์ ์์๋ณด๊ฒ ์ต๋๋ค.์ด ๊ฐ์ ๋ค์ด ์ฌ์ค์ด ์๋๋ผ๋ฉด, ์ต์์ ๊ณฑ๋ฒ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ๋์์ธ ํ์ ๋ ๋ฌด์๋ฏธํ๊ณ ๋ถ์ ํํ ๊ฒฐ๊ณผ๊ฐ์ด ๋์ถ๋ ๊ฒ์ด๋ฏ๋ก ์ด ์ ๋ค์ ์ ์ํ๋๊ฒ ์ข๊ฒ ์ต๋๋ค. 1. Linearity (์ ํ์ฑ)์ด๋ฆ๋ถํฐ๊ฐ ์ ํ ํ๊ท์์์? ๊ฐ ๋
๋ฆฝ ๋ณ์๋ ๊ณ ์ ํ ๊ณ์๊ฐ ๊ณฑํด์ง๊ณ , ์ด๋ฅผ ๋ค ํฉํด์ ์ข
์๋ณ์๋ฅผ ๋์ถํฉ๋๋ค. ์ ํ์ฑ์ ํ๋จํ๋ ์ฌ์ด ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น์? ๋
๋ฆฝ ๋ณ์ ์ค ํ๋(x1)๋ฅผ ๋ฝ์์ ์ข
์ ๋ณ์(y)์ ๋ํด์ scatter plot์ ๊ทธ๋ ค๋ณด์ธ์. ๊ทธ๋ผ ์ผ์ถ ๋ฐฉํฅ์ฑ์ด ๋ณด์ผํ
๋ฐ, ์ด๊ฒ ์ผ์ฐจํจ์๋ฉด ์ ํ์ฑ์ด ์๋ ๊ฒ์ด๊ณ , ๊ณก์ ์ด ๋ณด์ด๋ฉด ์ ํ์ฑ์ด ๋ถ์กฑํ ๋ฐ์ดํฐ๊ฒ ์ฃ ?๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฐ ๊ฒฝ์ฐ์๋ ์ ํ ํ๊ท๊ฐ ์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํตํด์ ์์ธก ๋ชจ๋ธ์ ๋์..