There are two types of predictions in data science.
Regression์ numerical data๋ฅผ ์์ธกํ๋๋ฐ ์ฌ์ฉํ๊ณ ,
Classification ์ cateogorical data๋ฅผ ์์ธกํ๋๋ฐ ์ฌ์ฉํฉ๋๋ค.
์๋ฅผ ๋ค์ด, ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์ด๋ฉ์ผ์ ์คํธ ๋ฉ์ผํจ์ด ์์ต๋๋ค.
๋ฉ์ผ์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์คํธ์ธ์ง ์๋์ง, Yes or No ์ ํด๋นํ๋ Cateogorical variable์ ์์ธกํฉ๋๋ค.
Input = Text / Output = Yes or No (Spam, Not Spam)
Classification์ ๋ํด์ ๋ ์์ธํ ์์๋ณด๊ธฐ ์ด์ ,
๊ฐ๋จํ๊ฒ Machine Learning์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
Machine Learning Algorithm
- A mathematical model (์ํ ๋ชจ๋ธ)
- calculated based on sample data (์ํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๊ณ์ฐ๋)
- called "training data" (ํด๋น ๋ฐ์ดํฐ๋ 'ํธ๋ ์ด๋ ๋ฐ์ดํฐ' ๋ผ๊ณ ๋ถ๋ฆ)
- that makes predictions or decisions without being explicitly programmed to perform the task.
์ฆ, machine learning algorithm์
ํธ๋ ์ด๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๊ณ์ฐ๋ ์ํ์ ๋ชจ๋ธ๋ก์จ, ๊ฒฐ์ ์ด๋ ์์ธก์ ํจ์ ์์ด์ ํ์ํ ๊ณผ์ ์ ๋ชจ๋ธ ์ ์์๊ฐ ๋ช ์์ ์ผ๋ก ์ ๋ ฅํ์ง ์์ ํน์ง์ด ์์ต๋๋ค.
์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ๋๋ถ๋ถ์ ํ๋ก๊ทธ๋จ ์ฒ๋ผ ๊ฐ๋ฐ์๊ฐ ์ผ์ผํ ๋ชจ๋ ๊ธฐ๋ฅ๊ณผ ๊ณผ์ ์ ๋์์ธ ํ์ง ์์๋ค๋ ๋ป์ ๋๋ค.
Technically speaking, simple linear regression ๋ํ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
Classificaiton์ ์ฌ์ฉ๋ ๋ชจ๋ธ์ธ classifier ๋ํ machine learning algorithm์ ๋๋ค.
Classifier
์ฌ๊ธฐ์ Label ์ด๋, classified category๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค. (ex. Spam, Not Spam)
์ฐ๋ฆฌ๋ ๋ชจ์ง๋จ (population)์์ sample data๋ฅผ ์์งํ ๋ค, ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ classification์ ํ๋ ค๊ณ ํฉ๋๋ค.
์ด ๋, ์ฐ๋ฆฌ๋ sample์ Training set๊ณผ Test set ์ผ๋ก ๋๋ ๋ค, training set ๋ง์ ์ด์ฉํด์ ๋ชจ๋ธ์ ํธ๋ ์ด๋ํฉ๋๋ค.
์ด๋ overfitting (๊ณผ์ ํฉ) ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด์์ ๋๋ค.
๋ชจ๋ ๋ชจ๋ธ์ ํธ๋ ์ด๋์ ํ๋ฉด ํ ์๋ก ํด๋น ํธ๋ ์ด๋ ๋ฐ์ดํฐ์ ํนํ๋ ๋ชจ๋ธ์ด ๊ตฌํ๋๊ธฐ ๋ง๋ จ์ ๋๋ค.
๋ค๋ฅด๊ฒ ๋ณด์๋ฉด, bias towards the training set์ ๋ถ๊ฐํผํฉ๋๋ค.
ํ์ง๋ง, ๋ง์ฝ training set ๊ทธ ์์ฒด๊ฐ population์ ์ถฉ๋ถํ ๋ํํ์ง ๋ชปํ๋ค๋ฉด?
population์ ์ ์ฉํ๊ณ ์ ํ๋ ์ต์ข ๋ชฉํ๊ฐ ๋ฌด์ํ๊ฒ, ์ฃผ์ด์ง ํธ๋ ์ด๋ ๋ฐ์ดํฐ์๋ง ์๋ฒฝํ ๋ฌด์๋ฏธํ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง๋๋ค.
์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ sample data๋ฅผ ๋๋ก ๋๋ ์, ํธ๋ ์ด๋ ์ดํ ๋ชจ๋ธ์ ํ๊ฐํ๋ ๊ณผ์ ์์ test set์ ์ฌ์ฉํฉ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก, sample data์ ๋ค์์ฑ ๋ํ ๋งค์ฐ ์ค์ํฉ๋๋ค.
์๋ฅผ ๋ค์ด ์ฌ์ง์ ํตํด ๊ฐ์์ง์ ๋๋๋ฅผ ๊ตฌ๋ถํ๋ classifier๋ฅผ ๊ตฌํํ์๋๋ฐ,
ํ์ต ๋ฐ์ดํฐ์์ ๋ชจ๋ ๋๋ ์ฌ์ง์ ๋ฐฐ๊ฒฝ์๋ ๋์ด ์๋ ๊ฒจ์ธ์ ์ด๋ฏธ์ง๋ผ๊ณ ํด ๋ณด๊ฒ ์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด ํด๋น ๋ชจ๋ธ์ ๋ฐฐ๊ฒฝ์ ๋์ด ์๋ ๊ฒจ์ธ๋ ์ ๊ฐ์์ง์ ์ด๋ฏธ์ง๋ฅผ ๋งค์ฐ ๋์ ํ๋ฅ ๋ก ๋๋๋ผ๊ณ ์์ธกํ ๊ฒ ์ ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ญ์ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํตํด ๋ฐฉ์งํ ์ ์๊ฒ ์ต๋๋ค.
Nearest Neighbor Classifier & k-Nearest Neighbor Classifier (KNN)
๊ฐ์ฅ ๊ธฐ์ด์ ์ธ Classifier์ ์ข ๋ฅ๋ก Nearest Neighbor Classifier ๊ฐ ์์ต๋๋ค.
์ด๋ ์ฃผ์ด์ง data point์ ๋ค๋ฅธ ๋ชจ๋ data point ์ค์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ์ label์ ๊ฐ์ ธ์ค๋ ๋ฐฉ์์ ๋๋ค.
์ฌ๊ธฐ์ ๊ฐ๊น๋ค์ ์ ์๋, ํผํ๊ณ ๋ผ์ค ์ ๋ฆฌ์์ distance๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ n์ฐจ์์ผ๋ก ํ์ฅํ ํ์์ ๋๋ค.
(n์ฐจ์์์๋ ํผํ๊ณ ๋ผ์ค ์ ๋ฆฌ๊ฐ ์ฑ๋ฆฝํ๋ค์ ์ฆ๋ช ์ ๋ค๋ฃจ์ง ์์ต๋๋ค.)
ํ์ง๋ง, ์ด๋ ๊ฒ ํ๋ฉด ์๋ฌด๋๋ ๊ฐ์ฅ ๊ฐ๊น์ด ํ๊ฐ์ ์ ๋ง์ ํ์ธํ๋, ์ ํ๋๊ฐ ์กฐ๊ธ ๋จ์ด์ง๊ฒ ์ฃ ?
๊ทธ๋์ ์ผ๋ฐ์ ์ผ๋ก ์ ํธ๋๋ ๋ฐฉ๋ฒ์ผ๋ก k-Nearest Neighbor Classifier ๊ฐ ์์ต๋๋ค.
์ด๋ ๊ฑฐ์ ๋์ผํ์ง๋ง, k ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ๋ค์ ํ์ธํ์ฌ ๊ทธ ์ค ๊ณผ๋ฐ์์ธ label์ ์ฐจ์ฉํ๋ ๋ฐฉ์์ ๋๋ค.
(์ง๊ด์ ์ผ๋ก, k๋ฅผ ์ง์๋ก ์ง์ ํ๋ฉด label์ด ์ ๋ฐ์ผ๋ก ๋๋ ์ ์๊ธฐ์ ํ์๋ฅผ ์ ํํฉ๋๋ค.)
* Standardize If Necessary
์ฐ๋ฆฌ์ ๋ฐ์ดํฐ์์ ๋ชจ๋ column (variable)์ ๊ฐ์ data range๋ฅผ ๊ฐ์ง์ง ์์ต๋๋ค.
Suppose in the data, one variable is the age and another variable is the annual income.
์ฐ๋ฆฌ๊ฐ ๋์ด, ์ฐ ์์ , ์ ์ฅ, ๋ฑ ์ฌ๋ฌ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํน์ ์ธ๋ฌผ์ ์ ์น์ ์ฑํฅ์ ์์ธกํ๋ ๋ชจ๋ธ์ ๊ตฌํ์ค์ด๋ผ๊ณ ํด ๋ณด๊ฒ ์ต๋๋ค.
๋์ด๋ ๊ทน๋จ์ ์ผ๋ก ์ฐจ์ด๋ ๋ด์ผ 100์ธ์ด์ง๋ง, ์ฐ์์ ์ ๋ฒ์๋ ๋งค์ฐ ๊ด๋ฒ์ํ์ฌ ์์ญ์ต์์ ๊ทธ ์ด์์ ๋ฒ์๋ ์กด์ฌํ ๊ฒ ์ ๋๋ค.
์ด๋ฐ ๊ฒฝ์ฐ, ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ standardize (z-score๋ก ๋ณํ)ํ๋ ๊ฒ์ด ๋ฐ๋์งํ ์ ์์ต๋๋ค.
'Data Science > ๊ฐ๋ ๊ณผ ์ฉ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Slope and Y-intercept of The Regression Line | ํ๊ท์ ์ ๊ธฐ์ธ๊ธฐ์ y์ ํธ (0) | 2024.11.25 |
---|---|
Trend, Pattern, and The Correlation Coefficient (r) (1) | 2024.11.15 |
How to Interpret Confidence Interval | ์ ๋ขฐ ๊ตฌ๊ฐ์ ํด์ (2) | 2024.11.01 |
A/B Testing (0) | 2024.10.29 |
The Bootstrap Technique | ๋ถํธ์คํธ๋ฉ (2) | 2024.10.23 |