Raw Data와 Data Pre-processing for Traditional Data

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Channi Studies

Raw Data와 Data Pre-processing for Traditional Data 본문

Data Science/개념과 용어

Raw Data와 Data Pre-processing for Traditional Data

Chan Lee 2024. 5. 18. 10:08

Raw Data는 raw facts, primary data라고도 불리며 가공되지 않은 원시 데이터를 의미합니다.

Raw data는 바로 분석(analysis)될 수 없는 상태이고, 처리를 거쳐야 분석에 사용이 가능합니다.

하지만 처리 프로세싱 이전에, 전처리(pre-processing) 과정을 거쳐야합니다.

우선 Traditional data의 관점에서 전처리의 종류를 열거하겠습니다.

여기서 Traditional data란, 한 개의 컴퓨터에서 처리될 수 있는 양의 구조화된 데이터를 지칭합니다.

반대되는 개념으로는 빅 데이터가 있습니다.

Traditional data의 관점에서 전처리의 종류는 다음과 같습니다.

Pre-processings for Traditional Data

1. Class Labeling: 양적(Quantitative) vs 질적(Qualitative)로 데이터를 분류합니다.

2. Data Cleansing (also known as data cleaning, data scrubbing): 불일치한 데이터들을 처리합니다.

ex) 고객 데이터 중 거주지란에 오타가 발생하여 'New York' 대신 'Nwe York'가 입력된 것을 정정

3. Dealing with missing values: 존재하지 않는 데이터를 처리합니다

ex) 고객 데이터 중 나이를 기재하지 않은 고객 데이터셋에 대하여, 나이를 평균 고객 나이로 입력하여 분석에 활용할지, 혹은 분석에서 해당 데이터셋을 제외할지를 고려합니다.

전처리 과정을 통하여 우리는 데이터 수집 과정에서 발생하였을 수 있는 문제들에 대한 대처를 함으로써, 더욱 유의미하고 정확한 분석 및 예측이 가능합니다.

이와 같은 전처리 과정 외에도, traditional data에 적용할 수 있는 여러가지 테크닉들이 있습니다.

More Techniques for Traditional Data

1. Data Balancing: 데이터 subset들의 샘플 수량을 밸런싱합니다.

ex) 20대 한국인의 체중을 분석하려는데, 샘플 중 여자가 20%고 남자가 80%인 경우, 이를 조정하여 5:5로 밸런싱합니다.

2. Data Shuffling: 데이터들을 무작위로 섞습니다.

이를 통해 우리는 데이터 수집 과정에서 발생하였을 수 있는 의도되지 않은 패턴들을 방지할 수 있습니다. 이로써 예측 성능과 의도하지 않은 결론이 나오지 않도록 방지합니다.

우리는 이러한 데이터들을 분석 후 시각화 하고 싶을 때가 있습니다.

Traditional Data의 경우에 자주 사용되는 두개의 시각화 모델은 다음과 같습니다.

Data Visualization Models for Traditional Data

1. Entity-Relationship Diagram (ER Diagram)

2. Relational Schema

일단은 이런게 있구나 정도만 알고 넘어가고, 나중에 직접 활용할 때 이해하면 될 것 같습니다.

저작자표시 (새창열림)

'Data Science > 개념과 용어' 카테고리의 다른 글

Machine Learning \| 머신 러닝 (0)	2024.05.18
Traditional Predictive Analysis \| 전통적 예측 분석 (0)	2024.05.18
Business Intelligence (BI) \| 비즈니스 인텔리전스 (0)	2024.05.18
Big Data의 전처리와 시각화 모델 (0)	2024.05.18
Analysis와 Analytics의 차이는? (0)	2024.05.18

'Data Science/개념과 용어' Related Articles

Channi Studies

Raw Data와 Data Pre-processing for Traditional Data 본문

Raw Data와 Data Pre-processing for Traditional Data

Pre-processings for Traditional Data

More Techniques for Traditional Data

Data Visualization Models for Traditional Data

'Data Science > 개념과 용어' 카테고리의 다른 글

티스토리툴바