Data Science/๊ฐœ๋…๊ณผ ์šฉ์–ด

Correlation Analysis(์ƒ๊ด€ ๋ถ„์„)๊ณผ  Regression Analysis(ํšŒ๊ท€ ๋ถ„์„)๊ฐ„์˜ ์ฐจ์ด๋Š” ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. "Correlation does not imply causation"์ƒ๊ด€ ๊ด€๊ณ„๋Š” ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์˜๋ฏธํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋” ์ž์„ธํ•˜๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด,1. Correlation์€ ๋‘ ๋ณ€์ˆ˜(variable) ์‚ฌ์ด์˜ relationship์˜ ์ •๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐ˜๋ฉด, Regression์€ ํŠน์ • ๋ณ€์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์–ด๋– ํ•œ ์˜ํ–ฅ์„ ๋ผ์น˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.2. Correlation์€ ๋‘ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์ธก์ •ํ•˜๋Š”๊ฒƒ์ด ์•„๋‹Œ, ๊ด€๊ณ„์„ฑ์˜ ์ •๋„๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค (move together). ๋ฐ˜๋ฉด Regression์€ ๋‘ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์—ฐ๊ด€์„ฑ์˜ ์ •๋„๊ฐ€ ์•„๋‹Œ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์ง์ ‘ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค (cause..
Linear Regression(์„ ํ˜• ํšŒ๊ท€): 2๊ฐœ ์ด์ƒ์˜ ๋ณ€์ˆ˜๋“ค ์‚ฌ์ด์—์„œ์˜ ์ธ๊ณผ ๊ด€๊ณ„์— ๋Œ€ํ•œ ์„ ํ˜• ๊ทผ์‚ฌ (์˜ˆ์ธก)A linear approximation of a causal relationship between two or more variables. ์„ ํ˜• ํšŒ๊ท€์˜ ๊ณผ์ •1. Sample data๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค.2. ํ•ด๋‹น ์ƒ˜ํ”Œ์— ๋งž๋Š” ๋ชจ๋ธ์„ ๋””์ž์ธ ํ•œ๋‹ค.3. ํ•ด๋‹น ๋ชจ๋ธ์œผ๋กœ ์ „์ฒด population์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ํ•œ๋‹ค. ์„ ํ˜• ํšŒ๊ท€์—์„œ ์˜ˆ์ธกํ•˜๋Š” ๊ฐ’ y ๋Š” dependent variable(์ข…์† ๋ณ€์ˆ˜) ์ด๊ณ , (x1, x2, ..., xk)๋Š” independent variable(๋…๋ฆฝ ๋ณ€์ˆ˜) ๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.y ๋Š” x๋“ค์— ๋Œ€ํ•œ ํ•จ์ˆ˜๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. => y = f(x1, x2, ..., xk)  ์šฐ์„  Simple L..
Data Scientist๊ฐ€ ํ•˜๋Š” ์ผ์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ, Data ์™€ ๊ด€๋ จ๋œ ์—ฌ๋Ÿฌ ์ง์—…๋“ค์„ ํ•จ๊ป˜ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. Data ArchitectData architect๋Š” ์‚ฌ์šฉ๋  ๋ฐ์ดํ„ฐ์…‹์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋””์ž์ธํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ํƒ์ƒ‰๋˜๊ณ  ์‚ฌ์šฉ๋˜๊ณ  ๋ถ„์„๋ ์ง€๋ฅผ ๊ตฌ์ƒํ•ฉ๋‹ˆ๋‹ค. Data Engineer๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋Š” ํš๋“๋œ ๋ฐ์ดํ„ฐ(raw data)๋ฅผ ์ฒ˜๋ฆฌ(processing)ํ•˜์—ฌ ๋ถ„์„(analysis)์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๊ฒŒ๋” ํ•ฉ๋‹ˆ๋‹ค.๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๊ฐ€ ์ฒ˜๋ฆฌ๋ฅผ ๋งˆ์นœ ๋ฐ์ดํ„ฐ์…‹์€ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๊ด€๋ จ๋œ ์—…๋ฌด๋ฅผ ๋งก๋Š” ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋„˜๊ฒจ์ง‘๋‹ˆ๋‹ค.๊นจ๋—ํ•˜๊ณ  ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Data Administrator๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ์ž๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ ๋ฐ์ดํ„ฐ์˜ ํ๋ฆ„ (์ถ”๊ฐ€์™€ ์ œ๊ฑฐ)๋ฅผ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.๋ถ„์„์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ด..
๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๋ถ„์•ผ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ์†Œํ”„ํŠธ์›จ์–ด๋“ค์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. Programming Languagesํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์˜ ํ™œ์šฉ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ์›ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ์ง์ ‘ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.์ œ๊ฐ€ ๋ธ”๋กœ๊ทธ์—์„œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๊ณต๋ถ€๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ฒŒ ๋  ํŒŒ์ด์ฌ์ด ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ๋„ค์š”. ํ˜„์žฌ ์„ธ๊ณ„์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์—์„œ ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋Š” Python๊ณผ R์ž…๋‹ˆ๋‹ค.์ด ๋‘๊ฐ€์ง€ ์–ธ์–ด์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋งค์šฐ ์œ ์—ฐํ•˜์—ฌ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋ถ„์„์„ ์•„์šฐ๋ฅผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค.ํŠนํžˆ ์ˆ˜ํ•™์ , ํ†ต๊ณ„ํ•™์  ์—ฐ์‚ฐ์— ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ๋ฐ˜๋ฉด ํŠน์ • ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•ด์„œ๋Š” ๋ถ„์„ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.SQL์€ relational database๋ฅผ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•  ๋•Œ ํ™œ์šฉํ•˜๋„..
Chan Lee
'Data Science/๊ฐœ๋…๊ณผ ์šฉ์–ด' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (4 Page)