Big Data๋ Traditional Data์ ์๋ฐ๋๋ ๋ฐ์ดํฐ๋ค๋ก, ๋งค์ฐ ํฐ ๋ฐ์ดํฐ๋ค์ ์ง์นญํฉ๋๋ค.
๋น ๋ฐ์ดํฐ๋ ๊ตฌ์กฐํ ๋ ์ํ์ผ ์๋, ์กฐ๊ธ ๊ตฌ์กฐํ๋ ์ํ์ผ ์๋, ํน์ ์ ํ ๊ตฌ์กฐํ๋์ง ์์ ์ํ์ผ ์๋ ์์ต๋๋ค.
(= can be constructed, semi-constructed, or not constructed)
๋น ๋ฐ์ดํฐ๋ ์ฃผ๋ก ์ฌ๋ฌ๊ฐ์ ์ปดํจํฐ์ ๋๋์ด์ ธ์ ์ ์ฅ๋ฉ๋๋ค.
์ฐ๋ฆฌ๊ฐ ํ์์์ ์ ํ๋ ๋ฐ์ดํฐ์ ๊ท๋ชจ์๋ ๋น๊ต๋ ์๋๊ฒ ๋งค์ฐ ํฐ ๋ฐ์ดํฐ๋ก ์ธ์ํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ด๋ฐ ๋น ๋ฐ์ดํฐ์๋ ์ ์ฒ๋ฆฌ๊ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๋น ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ์ ๋ช๊ฐ์ง ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Types of Pre-processing:
1. Class Labeling (number, text, digital image, digital video data, digital audio data)
Traditional Data์์๋ ์์ /์ง์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด์ ์ฌ์ฉ๋ class labeling technique๋ ๋น ๋ฐ์ดํฐ์์ ๊ทธ ์ข ๋ฅ๊ฐ ํจ์ฌ ๋ง๊ธฐ ๋๋ฌธ์ ๋์ฑ ์ค์ํฉ๋๋ค.
2. Data Cleansing: traditional data์ ๊ทธ๊ฒ๊ณผ ๋์ผ
3. Dealing with the missing values: traditional data์ ๊ทธ๊ฒ๊ณผ ๋์ผํ์ง๋ง ๋์ฑ ์ค์ํฉ๋๋ค.
4. Data Masking: ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ฉด์ ๋ฐ์ดํฐ์ ๋์์ ์ฌ์ ์ ๋ณด์ (์ฌ์ํ) ์ํฅ์ด ๊ฐ์ง ์๊ฒ ํ๋ ๊ฒ ์ ๋๋ค.
์ฃผ๋ก ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ถ๊ณ ๊ฐ์ง ๊ฐ๋ค์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
๋ฐ์ดํฐ ๋ง์คํน์ด ์ ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ๋ง์ด๋์ Confidentially Preserving Data Mining ์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
Big Data Visualization Model
๋น ๋ฐ์ดํฐ ์๊ฐํ ๋ชจ๋ธ์ ์ ํต์ ๋ฐ์ดํฐ์ ๋ชจ๋ธ๋ณด๋ค ๋์ฑ ๋ณต์กํฉ๋๋ค.
(๋์ฑ ์์ด ๋ง๊ณ ์ํธ ์ฐ๊ด์ฑ์ด ์์ผ๋ ๋น์ฐํ๊ฒ ์ฃ ?)
๊ฐ๋ตํ๋ ๋ชจ๋ธ ๋์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ฐ ๋ํ๊ณผ ์ ๋ค์ ์๋ฏธ๋ ๋์ค์ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
'Data Science > ๊ฐ๋ ๊ณผ ์ฉ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Machine Learning | ๋จธ์ ๋ฌ๋ (0) | 2024.05.18 |
---|---|
Traditional Predictive Analysis | ์ ํต์ ์์ธก ๋ถ์ (0) | 2024.05.18 |
Business Intelligence (BI) | ๋น์ฆ๋์ค ์ธํ ๋ฆฌ์ ์ค (0) | 2024.05.18 |
Raw Data์ Data Pre-processing for Traditional Data (0) | 2024.05.18 |
Analysis์ Analytics์ ์ฐจ์ด๋? (0) | 2024.05.18 |