Data Science

ํ™•๋ฅ ์ด๋ž€ ๊ทธ ์ •์˜์—์„œ ์ด๋ฏธ ์•„์‹œ๋‹ค์‹œํ”ผ, ์–ด๋–ค ํŠน์ • ์ด๋ฒคํŠธ x๊ฐ€ ๋ฐœ์ƒํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์ˆซ์ž๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ ์ž…๋‹ˆ๋‹ค.์šฐ๋ฆฌ๋Š” ๋ฏธ๋ž˜์— ๋ฒŒ์–ด์งˆ ์ผ์˜ ํ™•๋ฅ ๋“ค์„ ์ˆ˜์ ์œผ๋กœ ๋น„๊ตํ•ด์„œ, ๋”์šฑ ๋†’์€ ํ™•๋ฅ ์ด ์–ด๋–ค ๊ฒƒ ์ธ์ง€๋ฅผ ์•Œ์•„๋ƒ„์œผ๋กœ์จ ๋ฏธ๋ž˜๋ฅผ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์–ด๋– ํ•œ ์‚ฌ๊ฑด x๊ฐ€ ์ ˆ๋Œ€๋กœ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ํ™•๋ฅ ์ด 0์ด๋‹ค. ๋ผ๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๋Š” ์–ด๋– ํ•œ ์‚ฌ๊ฑด x๊ฐ€ ๋ฌด์กฐ๊ฑด ๋ฐœ์ƒํ•œ๋‹ค๋Š” ๊ฒƒ์„ ํ™•๋ฅ ์„ 1์ด๋‹ค. ๋ผ๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.์ฆ‰ ๋ชจ๋“  ํ™•๋ฅ ์€ 0~1์˜ ๊ฐ’์„ ๊ฐ€์ง€๊ณ , ๋ณดํ†ต ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ๋Š” 0๊ณผ 1์€ ์•„๋‹ˆ๊ฒ ์ฃ ? ๊ณ„์‚ฐ๊ณผ ๋น„๊ต์˜ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” 30%, 1/5, ์ด๋Ÿฐ ์ˆ˜๋กœ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•˜๊ธฐ๋ณด๋‹ค 0.2, 0.53๊ณผ ๊ฐ™์€ ์†Œ์ˆ˜๋กœ ํ‘œํ˜„ํ•˜๊ธฐ๋ฅผ ์„ ํ˜ธํ•ฉ๋‹ˆ๋‹ค.  ํŠน์ • ์ด๋ฒคํŠธ x์— ๋Œ€ํ•ด์„œ ์šฐ๋ฆฌ๋Š”,x๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ ์„ P(x)๋กœ ํ‘œ๊ธฐํ•˜๊ณ ,P(x)..
Data Scientist๊ฐ€ ํ•˜๋Š” ์ผ์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ, Data ์™€ ๊ด€๋ จ๋œ ์—ฌ๋Ÿฌ ์ง์—…๋“ค์„ ํ•จ๊ป˜ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. Data ArchitectData architect๋Š” ์‚ฌ์šฉ๋  ๋ฐ์ดํ„ฐ์…‹์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋””์ž์ธํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ํƒ์ƒ‰๋˜๊ณ  ์‚ฌ์šฉ๋˜๊ณ  ๋ถ„์„๋ ์ง€๋ฅผ ๊ตฌ์ƒํ•ฉ๋‹ˆ๋‹ค. Data Engineer๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋Š” ํš๋“๋œ ๋ฐ์ดํ„ฐ(raw data)๋ฅผ ์ฒ˜๋ฆฌ(processing)ํ•˜์—ฌ ๋ถ„์„(analysis)์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๊ฒŒ๋” ํ•ฉ๋‹ˆ๋‹ค.๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๊ฐ€ ์ฒ˜๋ฆฌ๋ฅผ ๋งˆ์นœ ๋ฐ์ดํ„ฐ์…‹์€ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๊ด€๋ จ๋œ ์—…๋ฌด๋ฅผ ๋งก๋Š” ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋„˜๊ฒจ์ง‘๋‹ˆ๋‹ค.๊นจ๋—ํ•˜๊ณ  ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Data Administrator๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ์ž๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ ๋ฐ์ดํ„ฐ์˜ ํ๋ฆ„ (์ถ”๊ฐ€์™€ ์ œ๊ฑฐ)๋ฅผ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.๋ถ„์„์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ด..
๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๋ถ„์•ผ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ์†Œํ”„ํŠธ์›จ์–ด๋“ค์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. Programming Languagesํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์˜ ํ™œ์šฉ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ์›ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ์ง์ ‘ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.์ œ๊ฐ€ ๋ธ”๋กœ๊ทธ์—์„œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๊ณต๋ถ€๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ฒŒ ๋  ํŒŒ์ด์ฌ์ด ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ๋„ค์š”. ํ˜„์žฌ ์„ธ๊ณ„์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์—์„œ ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋Š” Python๊ณผ R์ž…๋‹ˆ๋‹ค.์ด ๋‘๊ฐ€์ง€ ์–ธ์–ด์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋งค์šฐ ์œ ์—ฐํ•˜์—ฌ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋ถ„์„์„ ์•„์šฐ๋ฅผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค.ํŠนํžˆ ์ˆ˜ํ•™์ , ํ†ต๊ณ„ํ•™์  ์—ฐ์‚ฐ์— ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ๋ฐ˜๋ฉด ํŠน์ • ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•ด์„œ๋Š” ๋ถ„์„ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.SQL์€ relational database๋ฅผ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•  ๋•Œ ํ™œ์šฉํ•˜๋„..
Machine Learning (ML) ์€ ๋ฌด์—‡์ผ๊นŒ์š”?๋จธ์‹  ๋Ÿฌ๋‹์€ ์ปดํ“จํ„ฐ์—๊ฒŒ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ์ž˜ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋ถ„์„ ๋ชจ๋ธ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์ž‘ํ•ด์ฃผ๊ณ , ์ปดํ“จํ„ฐ์˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋งค์šฐ ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ จ์˜ ๊ณผ์ •์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์ง€๋‚œ ํฌ์ŠคํŠธ์—์„œ ์‚ดํŽด๋ณธ ์ „ํ†ต์  ๋ฐฉ๋ฒ•๋“ค๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ, ์šฐ๋ฆฌ๋Š” ์ปดํ“จํ„ฐ์—๊ฒŒ ๋ชจ๋ธ์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ •๋ณด๋Š” ์ฃผ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.(์šฐ๋ฆฌ๋„ ๋ชจ๋ฅด๋‹ˆ๊นŒ์š”)์šฐ๋ฆฌ๊ฐ€ ์ปดํ“จํ„ฐ์—๊ฒŒ ์ฃผ๋Š” ๊ฒƒ์€ ๋ชจ๋ธ์„ ์ฐพ๊ธฐ ์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ปดํ“จํ„ฐ๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋ชจ๋ธ์„ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.์ตœ์ ์˜ ๋ชจ๋ธ์„ ์ฐพ๋Š” ํ–‰์œ„๋Š” ์ปดํ“จํ„ฐ์˜ ๋ชซ์ž…๋‹ˆ๋‹ค.์—ฌ๊ธฐ์„œ '์ตœ์ '์˜ ๊ธฐ์ค€์„ ์–ด๋–ป๊ฒŒ ์ •ํ•˜๋ƒ์— ๋”ฐ๋ผ์„œ ํ•™์Šต ๋ฐ˜๋ณต์˜ ํšŸ์ˆ˜๊ฐ€ ๋ณ€ํ•˜๊ฒ ์ฃ ? ๋จธ์‹  ๋Ÿฌ๋‹์˜ ๊ณผ์ •์„ ์‰ฝ๊ฒŒ ์š”์•ฝํ•˜๋ฉด, Trial-and-Error ๊ณผ์ •, ์ฆ‰ ์‹œ๋„์™€..
Chan Lee
'Data Science' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (7 Page)