일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- string
- 티스토리챌린지
- Class
- pointer
- 함수
- 백준
- const
- Python
- predictive analysis
- Deep Learning
- Data Science
- raw data
- function
- 파이썬
- programming
- assignment operator
- vscode
- 포인터
- Pre-processing
- OOP
- baekjoon
- Object Oriented Programming
- pass by reference
- 문자열
- 오블완
- C++
- 배열
- array
- 알고리즘
- 반복문
- Today
- Total
Channi Studies
Raw Data와 Data Pre-processing for Traditional Data 본문
Raw Data는 raw facts, primary data라고도 불리며 가공되지 않은 원시 데이터를 의미합니다.
Raw data는 바로 분석(analysis)될 수 없는 상태이고, 처리를 거쳐야 분석에 사용이 가능합니다.
하지만 처리 프로세싱 이전에, 전처리(pre-processing) 과정을 거쳐야합니다.
우선 Traditional data의 관점에서 전처리의 종류를 열거하겠습니다.
여기서 Traditional data란, 한 개의 컴퓨터에서 처리될 수 있는 양의 구조화된 데이터를 지칭합니다.
반대되는 개념으로는 빅 데이터가 있습니다.
Traditional data의 관점에서 전처리의 종류는 다음과 같습니다.
Pre-processings for Traditional Data
1. Class Labeling: 양적(Quantitative) vs 질적(Qualitative)로 데이터를 분류합니다.
2. Data Cleansing (also known as data cleaning, data scrubbing): 불일치한 데이터들을 처리합니다.
ex) 고객 데이터 중 거주지란에 오타가 발생하여 'New York' 대신 'Nwe York'가 입력된 것을 정정
3. Dealing with missing values: 존재하지 않는 데이터를 처리합니다
ex) 고객 데이터 중 나이를 기재하지 않은 고객 데이터셋에 대하여, 나이를 평균 고객 나이로 입력하여 분석에 활용할지, 혹은 분석에서 해당 데이터셋을 제외할지를 고려합니다.
전처리 과정을 통하여 우리는 데이터 수집 과정에서 발생하였을 수 있는 문제들에 대한 대처를 함으로써, 더욱 유의미하고 정확한 분석 및 예측이 가능합니다.
이와 같은 전처리 과정 외에도, traditional data에 적용할 수 있는 여러가지 테크닉들이 있습니다.
More Techniques for Traditional Data
1. Data Balancing: 데이터 subset들의 샘플 수량을 밸런싱합니다.
ex) 20대 한국인의 체중을 분석하려는데, 샘플 중 여자가 20%고 남자가 80%인 경우, 이를 조정하여 5:5로 밸런싱합니다.
2. Data Shuffling: 데이터들을 무작위로 섞습니다.
이를 통해 우리는 데이터 수집 과정에서 발생하였을 수 있는 의도되지 않은 패턴들을 방지할 수 있습니다. 이로써 예측 성능과 의도하지 않은 결론이 나오지 않도록 방지합니다.
우리는 이러한 데이터들을 분석 후 시각화 하고 싶을 때가 있습니다.
Traditional Data의 경우에 자주 사용되는 두개의 시각화 모델은 다음과 같습니다.
Data Visualization Models for Traditional Data
1. Entity-Relationship Diagram (ER Diagram)
2. Relational Schema
일단은 이런게 있구나 정도만 알고 넘어가고, 나중에 직접 활용할 때 이해하면 될 것 같습니다.


'Data Science > 개념과 용어' 카테고리의 다른 글
Machine Learning | 머신 러닝 (0) | 2024.05.18 |
---|---|
Traditional Predictive Analysis | 전통적 예측 분석 (0) | 2024.05.18 |
Business Intelligence (BI) | 비즈니스 인텔리전스 (0) | 2024.05.18 |
Big Data의 전처리와 시각화 모델 (0) | 2024.05.18 |
Analysis와 Analytics의 차이는? (0) | 2024.05.18 |