๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๋ถ์ผ์์๋ ๋ค์ํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ์ํํธ์จ์ด๋ค์ด ์ฌ์ฉ๋ฉ๋๋ค.
Programming Languages
ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ํ์ฉ์ ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ๊ฐ ์ํ๋ ํ๋ก๊ทธ๋จ์ ์ง์ ๊ตฌํํ ์ ์๋๋ก ๋์์ค๋๋ค.
์ ๊ฐ ๋ธ๋ก๊ทธ์์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ณต๋ถ๋ฅผ ์ํด ์ฌ์ฉํ๊ฒ ๋ ํ์ด์ฌ์ด ๊ฐ์ฅ ๋ํ์ ์ด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค์.
ํ์ฌ ์ธ๊ณ์ ์ผ๋ก ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ Python๊ณผ R์ ๋๋ค.
์ด ๋๊ฐ์ง ์ธ์ด์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ๋งค์ฐ ์ ์ฐํ์ฌ ์ฌ๋ฌ๊ฐ์ง ์ํฉ์ ๋ํ ๋ถ์์ ์์ฐ๋ฅผ ์ ์๋ค๋ ๊ฒ ์ ๋๋ค.
ํนํ ์ํ์ , ํต๊ณํ์ ์ฐ์ฐ์ ๋ฐ์ด๋ฉ๋๋ค.
ํ์ง๋ง, ๋ฐ๋ฉด ํน์ ๋ฌธ์ ๋ค์ ๋ํด์๋ ๋ถ์ํ ์ ์๋ ๊ฒฝ์ฐ๋ ์กด์ฌํฉ๋๋ค.
SQL์ relational database๋ฅผ ๊ด๋ฆฌ ์์คํ ์ ์ฌ์ฉํ ๋ ํ์ฉํ๋๋ก ๋ง๋ค์ด์ก์ต๋๋ค.
SQL์ traditional historical data๋ฅผ ๋ค๋ฃฐ ๋ ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค.
๋ํ MATLAB๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์์ ์ฌ์ฉ๋๋ ์ธ์ด๋ค ์ค ํ๋์ ๋๋ค.
Matlab๋ ์ํ์ ํจ์๋ ํ๋ ฌ ์ฐ์ฐ์ ์์ด์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
์ด๋ฌํ ์ด์ ๋ก Matlab์ ๋น ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ traditional data, business intelligence, traditional predection methods, machine learning์์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
Matlab์ ํ๋ฅญํ์ง๋ง ์ ๋ฃ์ด๊ธฐ ๋๋ฌธ์ R๊ณผ Python๊ฐ์ ์คํ์์ค ์ธ์ด์๊ฒ ๋ฐ๋ฆฌ๊ณ ์๋ค๊ณ ํฉ๋๋ค.
์ข ํฉ์ ์ผ๋ก ๋น ๋ฐ์ดํฐ๊ฐ ์๋ ์ ํต์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ๋๋ R, Python, Matlab, SQL์ด ๋๋ถ๋ถ์ ์ผ์ ์ฒ๋ฆฌํ ์ ์๋ ์ธ์ด๋ค์ ๋๋ค.
๋ฐ๋ฉด ๋น ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ๋์๋ ์ ํต์ ๋ฐ์ดํฐ์๋ ๋ค๋ฅด๊ฒ java์ Scala๋ฅผ ๋ง์ด ์ฌ์ฉํฉ๋๋ค.
์ด ๋ ์ธ์ด๋ค์ ํต๊ณํ์ ์ฐ์ฐ์ ์ํด ํ์ํ ์ธ์ด๋ ์๋์ง๋ง, ์ฌ๋ฌ ์์ค์ ๋ฐ์ดํฐ๋ค์ ํฉ์น ๋์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
๋จธ์ ๋ฌ๋์ ๊ดํด์ ์๊ธฐํ์๋ฉด, ๋จธ์ ๋ฌ๋์ ๋น ๋ฐ์ดํฐ์ ์ฐ๊ด๋์ด ์๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋์ ์ฐ์ฐ ๋ฅ๋ ฅ์ ์๊ตฌํฉ๋๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ R, Python, Matlab, Java, Scala์ ์ฐ์ฐ ์ฒ๋ฆฌ ์๋๊ฐ ๋น ๋ฅธ ์ธ์ด๋ค์ธ JavaScript, C, C++๋ค๋ ํจ๊ป ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
Softwares
Data Science์์ ์ฌ๋๋ค์ ํ๊ฐ ์ด์์ ์ธ์ด๋ฅผ ํ์ฉํ๋ฉฐ, ๋์ฑ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํ์ฌ application software (or software solutions)๋ค์ ๋ง๋ค์์ต๋๋ค.
์ด๋ฌํ application software๋ค์ ํน์ ํ ๋น์ฆ๋์ค ๋ชฉ์ ์ ๋ง์ถ์ด ์กฐ์ ๋ ์ํํธ์จ์ด๋ค์ ๋๋ค.
๋์ฑ ์ข์ ๋ฒ์์ ๋ชฉ์ ์ฑ์ ๊ฐ์ง ์ด ์ํํธ์จ์ด๋ค์ ๋ฐฐ์ฐ๊ธฐ๊ฐ ํจ์ฌ ์ฝ๊ณ , ํด๋น ๋น์ฆ๋์ค์์์ ํ์ฉ๋๊ฐ ๋งค์ฐ ๋์ต๋๋ค.
๋น๊ต์ ๋ณต์กํ ์ฐ์ฐ์ ๋์ฑ ๊ฐ๋จํ๊ฒ ํ๋๋ก ๋์์ฃผ๊ณ , ์๊ฐํ ํ๋ ๊ฒ์ ๋น ๋ฅด๊ณ ์ฉ์ดํ๊ฒ ๋ง๋ค์ด์ค๋๋ค.
๋ํ์ ์ธ ์์๋ก๋ ๋ง์ดํฌ๋ก์ํํธ ์์ ์ด ์๊ฒ ๋ค์.
์ค์ ๋ก ์์ ์ traditional data, business intelligence, ๊ทธ๋ฆฌ๊ณ traditional prediction method๋ฅผ ๋ค๋ฃฐ ๋ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
๋น์ทํ๊ฒ IBM์ SPSS ๋ํ ์์ ์ด ์ฌ์ฉ๋๋ ์ํฉ๋ค์์ ๋งค์ฐ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ํํธ์จ์ด์ ๋๋ค.
๋น ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ์๋, ๋งค์ฐ ํฐ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ๋ ๋์ฑ ์ ํฉํ ์ํํธ์จ์ด๋ค์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
๊ทธ ์ข ๋ฅ๋ก๋ Apache Hadoop, Apache HBase, ๊ทธ๋ฆฌ๊ณ MongoDB๊ฐ ์์ต๋๋ค.
Apache Hadoop์ ๋น ๋ฐ์ดํฐ์ ๋ณต์ก์ฑ๊ณผ ์ฐ์ฐ์ ๋์ด๋๋ฅผ ๋ฎ์ถ๊ธฐ ์ํด์ ์ฌ์ฉ๋๋ ์ํํธ์จ์ด ํ๋ ์์ํฌ์ ๋๋ค.
Hadoop์ ์ฐ์ฐ์ ์ฌ๋ฌ๊ฐ์ ์ปดํจํฐ์ ๋๋ ์ ์งํํ๊ณ , ๊ทธ๊ฒ์ด ์ต๊ทผ ๋น ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ ๋๋ค.
Business Intelligence์ ๊ฒฝ์ฐ์๋ ์์ ํ ์์ ์ ๋ํ์ฌ Power B-I, SAS, Qlik, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ Tableau๊ฐ ์์ต๋๋ค.
์ฃผ๋ก BI ์๊ฐํ์ ์์ด์ ์ฌ์ฉ๋๋ ์ํํธ์จ์ด๋ค์ ๋๋ค.
Traditional Prediction Methods, ์ ํต์ ์์ธก ๋ฐฉ๋ฒ๋ค์ ๊ฒฝ์ฐ์๋ ์์ ๊ณผ SPSS์ ๋ํ์ฌ ๊ฒฝ์ ์ time-series ๋ชจ๋ธ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ EViews, ๊ทธ๋ฆฌ๊ณ ํ๊ท, cluster, ๊ทธ๋ฆฌ๊ณ factor analysis๊ฐ ์์ฃผ ์ฌ์ฉ๋๋ ํ์ ์ , ํต๊ณํ์ , ๊ทธ๋ฆฌ๊ณ ๊ฒฝ์ ํ์ ์ฐ๊ตฌ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ Stata๊ฐ ์์ต๋๋ค.
๋น์ฆ๋์ค ๋๋ ์ด๋ก ์ ์ดํด๋๊ฐ ๋น๊ต์ ๋ฎ์ ๊ฒฝ์ฐ์๋ ์ฌ๋ฌ ์ํํธ์จ์ด๋ฅผ ์ตํ๋๊ฒ ์ธ์ด๋ฅผ ๊ณต๋ถํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ฝ๊ณ ์ฉ์ดํฉ๋๋ค.
ํ์ง๋ง ์ดํด๋๊ฐ ๋์ ๊ฒฝ์ฐ์๋ ์ํํธ์จ์ด์ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค๊ณ ๋๋ ์ ์์ต๋๋ค.
์ด๋ฐ ๊ฒฝ์ฐ์๋ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด ๋ํ ํ์ตํ์ฌ ๋์ฑ ๋์ ๋ถ์์ ์์ ๋๋ฅผ ์ป๋ ๊ฒ์ด ์ข๋ค๊ณ ํ ์ ์์ต๋๋ค.