Channi Studies

Big Data의 전처리와 시각화 모델 본문

Data Science/개념과 용어

Big Data의 전처리와 시각화 모델

Chan Lee 2024. 5. 18. 10:18

Big Data는 Traditional Data와 상반되는 데이터들로, 매우 큰 데이터들을 지칭합니다.

빅 데이터는 구조화 된 상태일 수도, 조금 구조화된 상태일 수도, 혹은 전혀 구조화되지 않은 상태일 수도 있습니다.

(= can be constructed, semi-constructed, or not constructed)

 

빅 데이터는 주로 여러개의 컴퓨터에 나누어져서 저장됩니다.

우리가 평상시에 접하는 데이터의 규모와는 비교도 안되게 매우 큰 데이터로 인식하면 될 것 같습니다.

 

이런 빅 데이터에는 전처리가 매우 중요합니다.

빅데이터의 전처리의 몇가지 종류는 다음과 같습니다.

 

Types of Pre-processing:

1. Class Labeling (number, text, digital image, digital video data, digital audio data)

Traditional Data에서도 양적/질적 데이터를 구분하기 위해서 사용된 class labeling technique는 빅 데이터에서 그 종류가 훨씬 많기 때문에 더욱 중요합니다.

2. Data Cleansing: traditional data의 그것과 동일

3. Dealing with the missing values: traditional data의 그것과 동일하지만 더욱 중요합니다.

4. Data Masking: 데이터를 분석하면서 데이터의 대상의 사적 정보에 (사생활) 영향이 가지 않게 하는 것 입니다.

주로 원본 데이터를 감추고 가짜 값들을 사용하게 됩니다.

데이터 마스킹이 잘 이루어진 데이터 마이닝을 Confidentially Preserving Data Mining 이라고 부릅니다.

 

Big Data Visualization Model

빅 데이터 시각화 모델은 전통적 데이터의 모델보다 더욱 복잡합니다.

(더욱 양이 많고 상호 연관성이 있으니 당연하겠죠?)

간략화된 모델 도식은 다음과 같습니다.

각 도형과 선들의 의미는 나중에 알아보도록 하겠습니다.