Channi Studies

Raw Data와 Data Pre-processing for Traditional Data 본문

Data Science/개념과 용어

Raw Data와 Data Pre-processing for Traditional Data

Chan Lee 2024. 5. 18. 10:08

Raw Data는 raw facts, primary data라고도 불리며 가공되지 않은 원시 데이터를 의미합니다.

Raw data는 바로 분석(analysis)될 수 없는 상태이고, 처리를 거쳐야 분석에 사용이 가능합니다.

하지만 처리 프로세싱 이전에, 전처리(pre-processing) 과정을 거쳐야합니다.

 

우선 Traditional data의 관점에서 전처리의 종류를 열거하겠습니다.

여기서 Traditional data란, 한 개의 컴퓨터에서 처리될 수 있는 양의 구조화된 데이터를 지칭합니다.

반대되는 개념으로는 빅 데이터가 있습니다.

 

Traditional data의 관점에서 전처리의 종류는 다음과 같습니다.

Pre-processings for Traditional Data

1. Class Labeling: 양적(Quantitative) vs 질적(Qualitative)로 데이터를 분류합니다.

2. Data Cleansing (also known as data cleaning, data scrubbing): 불일치한 데이터들을 처리합니다.

ex) 고객 데이터 중 거주지란에 오타가 발생하여 'New York' 대신 'Nwe York'가 입력된 것을 정정

3. Dealing with missing values: 존재하지 않는 데이터를 처리합니다

ex) 고객 데이터 중 나이를 기재하지 않은 고객 데이터셋에 대하여, 나이를 평균 고객 나이로 입력하여 분석에 활용할지, 혹은 분석에서 해당 데이터셋을 제외할지를 고려합니다.

 

전처리 과정을 통하여 우리는 데이터 수집 과정에서 발생하였을 수 있는 문제들에 대한 대처를 함으로써, 더욱 유의미하고 정확한 분석 및 예측이 가능합니다.

 

이와 같은 전처리 과정 외에도, traditional data에 적용할 수 있는 여러가지 테크닉들이 있습니다.

More Techniques for Traditional Data

1. Data Balancing: 데이터 subset들의 샘플 수량을 밸런싱합니다.

ex) 20대 한국인의 체중을 분석하려는데, 샘플 중 여자가 20%고 남자가 80%인 경우, 이를 조정하여 5:5로 밸런싱합니다.

2. Data Shuffling: 데이터들을 무작위로 섞습니다.

이를 통해 우리는 데이터 수집 과정에서 발생하였을 수 있는 의도되지 않은 패턴들을 방지할 수 있습니다. 이로써 예측 성능과 의도하지 않은 결론이 나오지 않도록 방지합니다.

 

우리는 이러한 데이터들을 분석 후 시각화 하고 싶을 때가 있습니다.

Traditional Data의 경우에 자주 사용되는 두개의 시각화 모델은 다음과 같습니다.

Data Visualization Models for Traditional Data

1. Entity-Relationship Diagram (ER Diagram)

2. Relational Schema

일단은 이런게 있구나 정도만 알고 넘어가고, 나중에 직접 활용할 때 이해하면 될 것 같습니다.