Raw Data๋ raw facts, primary data๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ ๊ฐ๊ณต๋์ง ์์ ์์ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
Raw data๋ ๋ฐ๋ก ๋ถ์(analysis)๋ ์ ์๋ ์ํ์ด๊ณ , ์ฒ๋ฆฌ๋ฅผ ๊ฑฐ์ณ์ผ ๋ถ์์ ์ฌ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ง๋ง ์ฒ๋ฆฌ ํ๋ก์ธ์ฑ ์ด์ ์, ์ ์ฒ๋ฆฌ(pre-processing) ๊ณผ์ ์ ๊ฑฐ์ณ์ผํฉ๋๋ค.
์ฐ์ Traditional data์ ๊ด์ ์์ ์ ์ฒ๋ฆฌ์ ์ข ๋ฅ๋ฅผ ์ด๊ฑฐํ๊ฒ ์ต๋๋ค.
์ฌ๊ธฐ์ Traditional data๋, ํ ๊ฐ์ ์ปดํจํฐ์์ ์ฒ๋ฆฌ๋ ์ ์๋ ์์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์นญํฉ๋๋ค.
๋ฐ๋๋๋ ๊ฐ๋ ์ผ๋ก๋ ๋น ๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค.
Traditional data์ ๊ด์ ์์ ์ ์ฒ๋ฆฌ์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Pre-processings for Traditional Data
1. Class Labeling: ์์ (Quantitative) vs ์ง์ (Qualitative)๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํฉ๋๋ค.
2. Data Cleansing (also known as data cleaning, data scrubbing): ๋ถ์ผ์นํ ๋ฐ์ดํฐ๋ค์ ์ฒ๋ฆฌํฉ๋๋ค.
ex) ๊ณ ๊ฐ ๋ฐ์ดํฐ ์ค ๊ฑฐ์ฃผ์ง๋์ ์คํ๊ฐ ๋ฐ์ํ์ฌ 'New York' ๋์ 'Nwe York'๊ฐ ์ ๋ ฅ๋ ๊ฒ์ ์ ์
3. Dealing with missing values: ์กด์ฌํ์ง ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค
ex) ๊ณ ๊ฐ ๋ฐ์ดํฐ ์ค ๋์ด๋ฅผ ๊ธฐ์ฌํ์ง ์์ ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ, ๋์ด๋ฅผ ํ๊ท ๊ณ ๊ฐ ๋์ด๋ก ์ ๋ ฅํ์ฌ ๋ถ์์ ํ์ฉํ ์ง, ํน์ ๋ถ์์์ ํด๋น ๋ฐ์ดํฐ์ ์ ์ ์ธํ ์ง๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
์ ์ฒ๋ฆฌ ๊ณผ์ ์ ํตํ์ฌ ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ ๋ฐ์ํ์์ ์ ์๋ ๋ฌธ์ ๋ค์ ๋ํ ๋์ฒ๋ฅผ ํจ์ผ๋ก์จ, ๋์ฑ ์ ์๋ฏธํ๊ณ ์ ํํ ๋ถ์ ๋ฐ ์์ธก์ด ๊ฐ๋ฅํฉ๋๋ค.
์ด์ ๊ฐ์ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ธ์๋, traditional data์ ์ ์ฉํ ์ ์๋ ์ฌ๋ฌ๊ฐ์ง ํ ํฌ๋๋ค์ด ์์ต๋๋ค.
More Techniques for Traditional Data
1. Data Balancing: ๋ฐ์ดํฐ subset๋ค์ ์ํ ์๋์ ๋ฐธ๋ฐ์ฑํฉ๋๋ค.
ex) 20๋ ํ๊ตญ์ธ์ ์ฒด์ค์ ๋ถ์ํ๋ ค๋๋ฐ, ์ํ ์ค ์ฌ์๊ฐ 20%๊ณ ๋จ์๊ฐ 80%์ธ ๊ฒฝ์ฐ, ์ด๋ฅผ ์กฐ์ ํ์ฌ 5:5๋ก ๋ฐธ๋ฐ์ฑํฉ๋๋ค.
2. Data Shuffling: ๋ฐ์ดํฐ๋ค์ ๋ฌด์์๋ก ์์ต๋๋ค.
์ด๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ ๋ฐ์ํ์์ ์ ์๋ ์๋๋์ง ์์ ํจํด๋ค์ ๋ฐฉ์งํ ์ ์์ต๋๋ค. ์ด๋ก์จ ์์ธก ์ฑ๋ฅ๊ณผ ์๋ํ์ง ์์ ๊ฒฐ๋ก ์ด ๋์ค์ง ์๋๋ก ๋ฐฉ์งํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ด๋ฌํ ๋ฐ์ดํฐ๋ค์ ๋ถ์ ํ ์๊ฐํ ํ๊ณ ์ถ์ ๋๊ฐ ์์ต๋๋ค.
Traditional Data์ ๊ฒฝ์ฐ์ ์์ฃผ ์ฌ์ฉ๋๋ ๋๊ฐ์ ์๊ฐํ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Data Visualization Models for Traditional Data
1. Entity-Relationship Diagram (ER Diagram)
2. Relational Schema
์ผ๋จ์ ์ด๋ฐ๊ฒ ์๊ตฌ๋ ์ ๋๋ง ์๊ณ ๋์ด๊ฐ๊ณ , ๋์ค์ ์ง์ ํ์ฉํ ๋ ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
'Data Science > ๊ฐ๋ ๊ณผ ์ฉ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Machine Learning | ๋จธ์ ๋ฌ๋ (0) | 2024.05.18 |
---|---|
Traditional Predictive Analysis | ์ ํต์ ์์ธก ๋ถ์ (0) | 2024.05.18 |
Business Intelligence (BI) | ๋น์ฆ๋์ค ์ธํ ๋ฆฌ์ ์ค (0) | 2024.05.18 |
Big Data์ ์ ์ฒ๋ฆฌ์ ์๊ฐํ ๋ชจ๋ธ (0) | 2024.05.18 |
Analysis์ Analytics์ ์ฐจ์ด๋? (0) | 2024.05.18 |