Data Science/๊ฐœ๋…๊ณผ ์šฉ์–ด

Necessary Programming Languages and Softwares used in Data Science | ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•„์ˆ˜์ ์ธ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ์†Œํ”„ํŠธ์›จ์–ด๋“ค

Chan Lee 2024. 5. 18. 12:17

๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๋ถ„์•ผ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ์†Œํ”„ํŠธ์›จ์–ด๋“ค์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

 

Programming Languages

ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์˜ ํ™œ์šฉ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ์›ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ์ง์ ‘ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

์ œ๊ฐ€ ๋ธ”๋กœ๊ทธ์—์„œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๊ณต๋ถ€๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ฒŒ ๋  ํŒŒ์ด์ฌ์ด ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ๋„ค์š”.

 

ํ˜„์žฌ ์„ธ๊ณ„์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์—์„œ ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋Š” Python๊ณผ R์ž…๋‹ˆ๋‹ค.

์ด ๋‘๊ฐ€์ง€ ์–ธ์–ด์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋งค์šฐ ์œ ์—ฐํ•˜์—ฌ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋ถ„์„์„ ์•„์šฐ๋ฅผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค.

ํŠนํžˆ ์ˆ˜ํ•™์ , ํ†ต๊ณ„ํ•™์  ์—ฐ์‚ฐ์— ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ, ๋ฐ˜๋ฉด ํŠน์ • ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•ด์„œ๋Š” ๋ถ„์„ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

SQL์€ relational database๋ฅผ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•  ๋•Œ ํ™œ์šฉํ•˜๋„๋ก ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค.

SQL์€ traditional historical data๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ๋งค์šฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

 

๋˜ํ•œ MATLAB๋„ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์–ธ์–ด๋“ค ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

Matlab๋Š” ์ˆ˜ํ•™์  ํ•จ์ˆ˜๋‚˜ ํ–‰๋ ฌ ์—ฐ์‚ฐ์— ์žˆ์–ด์„œ ๊ฐ•์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ด์œ ๋กœ Matlab์€ ๋น…๋ฐ์ดํ„ฐ๋ฅผ ์ œ์™ธํ•œ traditional data, business intelligence, traditional predection methods, machine learning์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Matlab์€ ํ›Œ๋ฅญํ•˜์ง€๋งŒ ์œ ๋ฃŒ์ด๊ธฐ ๋•Œ๋ฌธ์— R๊ณผ Python๊ฐ™์€ ์˜คํ”ˆ์†Œ์Šค ์–ธ์–ด์—๊ฒŒ ๋ฐ€๋ฆฌ๊ณ  ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

์ข…ํ•ฉ์ ์œผ๋กœ ๋น…๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ ์ „ํ†ต์  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ๋Š” R, Python, Matlab, SQL์ด ๋Œ€๋ถ€๋ถ„์˜ ์ผ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด๋“ค์ž…๋‹ˆ๋‹ค.

 

๋ฐ˜๋ฉด ๋น… ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ์—๋Š” ์ „ํ†ต์  ๋ฐ์ดํ„ฐ์™€๋Š” ๋‹ค๋ฅด๊ฒŒ java์™€ Scala๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ด ๋‘ ์–ธ์–ด๋“ค์€ ํ†ต๊ณ„ํ•™์  ์—ฐ์‚ฐ์„ ์œ„ํ•ด ํƒ„์ƒํ•œ ์–ธ์–ด๋Š” ์•„๋‹ˆ์ง€๋งŒ, ์—ฌ๋Ÿฌ ์†Œ์Šค์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ํ•ฉ์น  ๋•Œ์— ๊ฐ•์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

 

 

๋จธ์‹  ๋Ÿฌ๋‹์— ๊ด€ํ•ด์„œ ์–˜๊ธฐํ•˜์ž๋ฉด, ๋จธ์‹  ๋Ÿฌ๋‹์€ ๋น… ๋ฐ์ดํ„ฐ์™€ ์—ฐ๊ด€๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋งค์šฐ ๋†’์€ ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— R, Python, Matlab, Java, Scala์— ์—ฐ์‚ฐ ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋น ๋ฅธ ์–ธ์–ด๋“ค์ธ JavaScript, C, C++๋“ค๋„ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

Softwares

Data Science์—์„œ ์‚ฌ๋žŒ๋“ค์€ ํ•œ๊ฐœ ์ด์ƒ์˜ ์–ธ์–ด๋ฅผ ํ™œ์šฉํ•˜๋ฉฐ, ๋”์šฑ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ application software (or software solutions)๋“ค์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ application software๋“ค์€ ํŠน์ •ํ•œ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชฉ์ ์— ๋งž์ถ”์–ด ์กฐ์ •๋œ ์†Œํ”„ํŠธ์›จ์–ด๋“ค์ž…๋‹ˆ๋‹ค.

 

๋”์šฑ ์ข์€ ๋ฒ”์œ„์˜ ๋ชฉ์ ์„ฑ์„ ๊ฐ€์ง„ ์ด ์†Œํ”„ํŠธ์›จ์–ด๋“ค์€ ๋ฐฐ์šฐ๊ธฐ๊ฐ€ ํ›จ์”ฌ ์‰ฝ๊ณ , ํ•ด๋‹น ๋น„์ฆˆ๋‹ˆ์Šค์—์„œ์˜ ํ™œ์šฉ๋„๊ฐ€ ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค.

๋น„๊ต์  ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ๋”์šฑ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ•˜๋„๋ก ๋„์™€์ฃผ๊ณ , ์‹œ๊ฐํ™” ํ•˜๋Š” ๊ฒƒ์„ ๋น ๋ฅด๊ณ  ์šฉ์ดํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค.

 

๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ๋กœ๋Š” ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ์—‘์…€์ด ์žˆ๊ฒ ๋„ค์š”.

์‹ค์ œ๋กœ ์—‘์…€์€ traditional data, business intelligence, ๊ทธ๋ฆฌ๊ณ  traditional prediction method๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

 

๋น„์Šทํ•˜๊ฒŒ IBM์˜ SPSS ๋˜ํ•œ ์—‘์…€์ด ์‚ฌ์šฉ๋˜๋Š” ์ƒํ™ฉ๋“ค์—์„œ ๋งค์šฐ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด์ž…๋‹ˆ๋‹ค.

 

 

๋น… ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ์—๋Š”, ๋งค์šฐ ํฐ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ๋”์šฑ ์ ํ•ฉํ•œ ์†Œํ”„ํŠธ์›จ์–ด๋“ค์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ทธ ์ข…๋ฅ˜๋กœ๋Š” Apache Hadoop, Apache HBase, ๊ทธ๋ฆฌ๊ณ  MongoDB๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

 

Apache Hadoop์€ ๋น… ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก์„ฑ๊ณผ ์—ฐ์‚ฐ์˜ ๋‚œ์ด๋„๋ฅผ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด์„œ ์‚ฌ์šฉ๋˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.

Hadoop์€ ์—ฐ์‚ฐ์„ ์—ฌ๋Ÿฌ๊ฐœ์˜ ์ปดํ“จํ„ฐ์— ๋‚˜๋ˆ ์„œ ์ง„ํ–‰ํ•˜๊ณ , ๊ทธ๊ฒƒ์ด ์ตœ๊ทผ ๋น… ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

 

 

Business Intelligence์˜ ๊ฒฝ์šฐ์—๋Š” ์ƒ์ˆ ํ•œ ์—‘์…€์— ๋”ํ•˜์—ฌ Power B-I, SAS, Qlik, ๊ทธ๋ฆฌ๊ณ  ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” Tableau๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋กœ BI ์‹œ๊ฐํ™”์— ์žˆ์–ด์„œ ์‚ฌ์šฉ๋˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด๋“ค์ž…๋‹ˆ๋‹ค.

 

 

Traditional Prediction Methods, ์ „ํ†ต์  ์˜ˆ์ธก ๋ฐฉ๋ฒ•๋“ค์˜ ๊ฒฝ์šฐ์—๋Š” ์—‘์…€๊ณผ SPSS์— ๋”ํ•˜์—ฌ ๊ฒฝ์ œ์  time-series ๋ชจ๋ธ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” EViews, ๊ทธ๋ฆฌ๊ณ  ํšŒ๊ท€, cluster, ๊ทธ๋ฆฌ๊ณ  factor analysis๊ฐ€ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ํ•™์ˆ ์ , ํ†ต๊ณ„ํ•™์ , ๊ทธ๋ฆฌ๊ณ  ๊ฒฝ์ œํ•™์  ์—ฐ๊ตฌ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” Stata๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

๋น„์ฆˆ๋‹ˆ์Šค ๋˜๋Š” ์ด๋ก ์  ์ดํ•ด๋„๊ฐ€ ๋น„๊ต์  ๋‚ฎ์€ ๊ฒฝ์šฐ์—๋Š” ์—ฌ๋Ÿฌ ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์ตํžˆ๋Š”๊ฒŒ ์–ธ์–ด๋ฅผ ๊ณต๋ถ€ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์‰ฝ๊ณ  ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ดํ•ด๋„๊ฐ€ ๋†’์€ ๊ฒฝ์šฐ์—๋Š” ์†Œํ”„ํŠธ์›จ์–ด์˜ ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•˜๋‹ค๊ณ  ๋Š๋‚„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฒฝ์šฐ์—๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด ๋˜ํ•œ ํ•™์Šตํ•˜์—ฌ ๋”์šฑ ๋†’์€ ๋ถ„์„์  ์ž์œ ๋„๋ฅผ ์–ป๋Š” ๊ฒƒ์ด ์ข‹๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.