일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬
- Data Science
- raw data
- Pre-processing
- 백준
- pass by reference
- pointer
- predictive analysis
- OOP
- 함수
- 오블완
- 포인터
- Object Oriented Programming
- array
- assignment operator
- C++
- 반복문
- string
- Deep Learning
- 배열
- function
- programming
- Class
- baekjoon
- Python
- 알고리즘
- const
- 문자열
- vscode
- 티스토리챌린지
- Today
- Total
Channi Studies
Traditional Predictive Analysis | 전통적 예측 분석 본문
지난 포스트까지 살펴보았던 행위들, data와 big data의 처리와 business intelligence는 과거에 일어난 일들을 분석하기 위한 지향점을 가진 행위들이였습니다.
이번 포스트에서는 이를 통해 궁극적으로 우리가 다가가려고 하는 미래 분석 중, 전통적인 방법들에 대해서 소개하겠습니다.
Traditional Methods는 다음과 같이 정의됩니다.
A set of methods that are derived mainly from statistics and are adopted for business.
Statistic, 즉 샘플 데이터에서 구한 통계적 값들으로부터 유추되고, 비즈니스들에 사용되는 방법들을 총칭합니다.
이러한 traditional methods는 미래의 퍼포먼스를 예측하는데 높은 정확도를 보이며, big data가 아닌 traditional data를 분석할 때에 더욱 적합합니다.
몇가지 전통적 방법의 테크닉들은 다음과 같습니다
Techniques:
1. Linear Regression (선형 회귀): 분석에 사용된 여러 변수들의 인과관계를 수량화 하기 위한 모델입니다.
주로 y=bx 의 함수가 우리의 데이터를 관통하는 형태입니다.
2. Logistic Regression (로지스틱 회귀): 회귀 분석인데, y축의 값이 0~1로 제한되는 분석입니다.
주로 binary decisions, 즉 하거나(1) 하지 않거나(0) 두개의 선택지가 있는 경우 활용됩니다.
3. Cluster Analysis: 값들을 기준에 따라 분류하여 분석하는 과정
4. Factor Analysis: 원인 변수(explanatory variable)들을 기준에 따라 묶은 후 분석하는 과정입니다.
원인 변수 x에 대하여, 분석 결과 y는 다음과 같이 표현됩니다.
y = a + b1x1 + b2x2 + b3x3 + ... + bnxn
즉, 원인 변수 x의 갯수가 늘어날 수록 모델은 복잡하고 정확도가 낮아질 수 있기 때문에, 값의 유사 경향을 가진 원인 변수들을 그룹화하여 하나의 변수로 통일합니다.
예를 들어, 설문 조사를 통해 데이터를 수집한다고 가정할 때, '동물원을 반대합니까?', '동물 실험을 반대합니까?', '동물 학대 형량을 높여야 한다고 생각합니까' 와 같은 질문들로 얻어지는 원인 변수 x1, x2, x3의 동일한 경향성을 알고, 이를 한가지 질문인 '동물에 우호적입니까?'로 통일하여 변수의 수를 줄이는 방법입니다.
5. Time Series: y축을 시간축으로 고정한 후 데이터들을 분석하는 방법입니다.
각 방법들은 실제 활용 시에 더욱 깊이 이해하도록 하겠습니다.
지금은 대략적인 개념만 이해하는 것으로 하면 좋을 것 같습니다.
실제 예시로는 고객 만족도 (User Satisfaction, UX) 분석이 있겠습니다.
우리의 목적은 당연히 고객 만족도를 극대화 하는 것이겠죠?
예를 들어 우리의 회사가 최근 새로운 상품을 국제적으로 판매하기 시작했고, 만족도를 설문하여 그래프에 표시하였다면, 문화권을 공유하는 대륙을 기반으로 여러가지 cluster로 나누어져 보일 수 있습니다.
이 경우 위의 방법 중 하나인 Cluster Analysis를 적용하여, 묶인 cluster의 수 만큼의 개별적 테스트를 진행하도록 할 것 입니다.
그리고 그 개별적 결과에 적합하게, 다른 대륙들에 다른 경영 전략을 활용하는 결론을 도출할 수 있겠습니다.
'Data Science > 개념과 용어' 카테고리의 다른 글
Necessary Programming Languages and Softwares used in Data Science | 데이터 사이언스에서 사용되는 필수적인 프로그래밍 언어와 소프트웨어들 (0) | 2024.05.18 |
---|---|
Machine Learning | 머신 러닝 (0) | 2024.05.18 |
Business Intelligence (BI) | 비즈니스 인텔리전스 (0) | 2024.05.18 |
Big Data의 전처리와 시각화 모델 (0) | 2024.05.18 |
Raw Data와 Data Pre-processing for Traditional Data (0) | 2024.05.18 |