Data Science

Expected Value란, 우리가 실험을 여러번 반복했을 때, 관측될 결과의 평균으로 예측하는 값 입니다.여기서 실험(experiment)의 정확한 정의를 알고 가야겠죠? 가령 우리가 동전을 던져서 앞면이 나올 확률인 P(A)를 모른다고 가정해봅시다.그래서 우리는 코인 토스를 많이 반복해서 나온 결과를 관찰해서, 이 값의 평균을 낼 것 입니다.한번 던져서 결과를 관측하는, 이 한번의 행위를 우리는 시도(trial)이라고 부릅니다.그리고 이 시도들이 여러번 반복되는 과정을 실험으로 정의합니다.  예를 들어 우리가 20번 동전을 던져서 관찰한다고 했을 때,이는 '20번의 개별적인 시도가 있는 1번의 실험' 입니다.  Experimental Probabilities | Theoretical Probabil..
확률이란 그 정의에서 이미 아시다시피, 어떤 특정 이벤트 x가 발생할 가능성을 숫자로 나타낸 것 입니다.우리는 미래에 벌어질 일의 확률들을 수적으로 비교해서, 더욱 높은 확률이 어떤 것 인지를 알아냄으로써 미래를 예측하고자 합니다. 우리는 어떠한 사건 x가 절대로 발생하지 않는다는 것을 확률이 0이다. 라고 표현합니다.그리고 우리는 어떠한 사건 x가 무조건 발생한다는 것을 확률을 1이다. 라고 표현합니다.즉 모든 확률은 0~1의 값을 가지고, 보통 우리의 데이터는 0과 1은 아니겠죠? 계산과 비교의 편의성을 위해, 우리는 30%, 1/5, 이런 수로 확률을 표현하기보다 0.2, 0.53과 같은 소수로 표현하기를 선호합니다.  특정 이벤트 x에 대해서 우리는,x가 일어날 확률을 P(x)로 표기하고,P(x)..
Data Scientist가 하는 일을 더 잘 이해하기 위해서, Data 와 관련된 여러 직업들을 함께 알아보겠습니다. Data ArchitectData architect는 사용될 데이터셋을 처음부터 디자인해 나갑니다.데이터가 어떤 방식으로 탐색되고 사용되고 분석될지를 구상합니다. Data Engineer데이터 엔지니어는 획득된 데이터(raw data)를 처리(processing)하여 분석(analysis)에 사용될 수 있게끔 합니다.데이터 엔지니어가 처리를 마친 데이터셋은 데이터 분석과 관련된 업무를 맡는 사람들에게 넘겨집니다.깨끗하고 정리된 데이터셋을 만드는 것이 중요합니다. Data Administrator데이터 관리자는 데이터베이스의 데이터의 흐름 (추가와 제거)를 관리합니다.분석에 사용되는 데이..
데이터 사이언스 분야에서는 다양한 프로그래밍 언어와 소프트웨어들이 사용됩니다. Programming Languages프로그래밍 언어의 활용은 데이터 사이언티스트가 원하는 프로그램을 직접 구현할 수 있도록 도와줍니다.제가 블로그에서 데이터 사이언스 공부를 위해 사용하게 될 파이썬이 가장 대표적이라고 할 수 있겠네요. 현재 세계적으로 데이터 사이언스에서 가장 널리 사용되는 프로그래밍 언어는 Python과 R입니다.이 두가지 언어의 가장 큰 장점은 매우 유연하여 여러가지 상황에 대한 분석을 아우를 수 있다는 것 입니다.특히 수학적, 통계학적 연산에 뛰어납니다. 하지만, 반면 특정 문제들에 대해서는 분석할 수 없는 경우도 존재합니다.SQL은 relational database를 관리 시스템을 사용할 때 활용하도..
Ricky U. Lee
'Data Science' 카테고리의 글 목록 (5 Page)