일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 문자열
- 오블완
- 티스토리챌린지
- 배열
- pass by reference
- assignment operator
- Class
- array
- Data Science
- 함수
- 알고리즘
- Deep Learning
- raw data
- 포인터
- OOP
- C++
- predictive analysis
- programming
- Object Oriented Programming
- Python
- vscode
- string
- Pre-processing
- function
- 파이썬
- const
- 반복문
- 백준
- pointer
- baekjoon
- Today
- Total
Channi Studies
Big Data의 전처리와 시각화 모델 본문
Big Data는 Traditional Data와 상반되는 데이터들로, 매우 큰 데이터들을 지칭합니다.
빅 데이터는 구조화 된 상태일 수도, 조금 구조화된 상태일 수도, 혹은 전혀 구조화되지 않은 상태일 수도 있습니다.
(= can be constructed, semi-constructed, or not constructed)
빅 데이터는 주로 여러개의 컴퓨터에 나누어져서 저장됩니다.
우리가 평상시에 접하는 데이터의 규모와는 비교도 안되게 매우 큰 데이터로 인식하면 될 것 같습니다.
이런 빅 데이터에는 전처리가 매우 중요합니다.
빅데이터의 전처리의 몇가지 종류는 다음과 같습니다.
Types of Pre-processing:
1. Class Labeling (number, text, digital image, digital video data, digital audio data)
Traditional Data에서도 양적/질적 데이터를 구분하기 위해서 사용된 class labeling technique는 빅 데이터에서 그 종류가 훨씬 많기 때문에 더욱 중요합니다.
2. Data Cleansing: traditional data의 그것과 동일
3. Dealing with the missing values: traditional data의 그것과 동일하지만 더욱 중요합니다.
4. Data Masking: 데이터를 분석하면서 데이터의 대상의 사적 정보에 (사생활) 영향이 가지 않게 하는 것 입니다.
주로 원본 데이터를 감추고 가짜 값들을 사용하게 됩니다.
데이터 마스킹이 잘 이루어진 데이터 마이닝을 Confidentially Preserving Data Mining 이라고 부릅니다.
Big Data Visualization Model
빅 데이터 시각화 모델은 전통적 데이터의 모델보다 더욱 복잡합니다.
(더욱 양이 많고 상호 연관성이 있으니 당연하겠죠?)
간략화된 모델 도식은 다음과 같습니다.
각 도형과 선들의 의미는 나중에 알아보도록 하겠습니다.

'Data Science > 개념과 용어' 카테고리의 다른 글
Machine Learning | 머신 러닝 (0) | 2024.05.18 |
---|---|
Traditional Predictive Analysis | 전통적 예측 분석 (0) | 2024.05.18 |
Business Intelligence (BI) | 비즈니스 인텔리전스 (0) | 2024.05.18 |
Raw Data와 Data Pre-processing for Traditional Data (0) | 2024.05.18 |
Analysis와 Analytics의 차이는? (0) | 2024.05.18 |