๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

EDA(Exploratory Confirmatory Analysis; ํƒ์ƒ‰์  ์ž๋ฃŒ ๋ถ„์„)

Jayden1116 2021. 11. 28. 19:02
  1. ๋‹ค์Œ ๋งํฌ๋Š” ๋‹ค์–‘ํ•œ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•๋“ค์ด ๋‚˜์™€์žˆ๋Š” Seaborn๊ณผ Matplotlib ์˜ ๊ณต์‹๋ฌธ์„œ์ž…๋‹ˆ๋‹ค. ๋งํฌ ์†์˜ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜์—ฌ, ๊ณ ๋ฅธ ์ด์œ ์™€ ํ•ด๋‹น ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•์˜ ์žฅ์ ์„ ์†Œ๊ฐœํ•ด ์ฃผ์„ธ์š”.
  • ์ €๋Š” seaborn์˜ violinplot์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค! ๋จผ์ € violinplot์€ boxplot๊ณผ ๋™์ผํ•˜๊ฒŒ ์ผ๋ณ€๋Ÿ‰, ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค. ๋‚ด์šฉ ์ž์ฒด๋Š” boxplot๊ณผ ๊ฐ™์œผ๋‚˜ ์ปค๋„ ๋ฐ€๋„ ๊ณก์„ ์„ ๋”ํ•ด, ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ’์— ๋”ฐ๋ฅธ ๊ฐ ๋ถ„ํฌ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋˜๋Š” ์ „์ฒด ํ˜•์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

image

  1. ํ™•์ฆ์  ๋ฐ์ดํ„ฐ ๋ถ„์„(CDA: Confirmatory Data Analysis)๊ณผ ํƒ์ƒ‰์  ์ž๋ฃŒ ๋ถ„์„(EDA: Exploratory Data Analysis)์˜ ์ฐจ์ด์ ์„ ์„ค๋ช…ํ•˜๊ณ ,๊ฐ๊ฐ ์–ด๋–ค ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋˜๋Š”์ง€ ๋ง์”€ํ•ด์ฃผ์„ธ์š”.
  • ํ™•์ฆ์  ๋ฐ์ดํ„ฐ ๋ถ„์„(CDA) : ๋ชฉ์ ์„ ๊ฐ€์ง€๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜์—ฌ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•. ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ๋‚˜ ํšจ๊ณผ์˜ ์žฌํ˜„์„ฑ ํ‰๊ฐ€, ์œ ์˜์„ฑ ๊ฒ€์ •, ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ถ”์ • ๋“ฑ ํ†ต๊ณ„์  ์ถ”๋ก ์„ ํ•˜๋Š” ๋‹จ๊ณ„. ๊ฐ€์„ค๊ฒ€์ •, ์„ค๋ฌธ์กฐ์‚ฌ, ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ๋‚ด์šฉ์„ ์ž…์ฆํ•˜๋Š”๋ฐ ๋งŽ์ด ์‚ฌ์šฉ.
  • ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(EDA) : ์Œ“์—ฌ์žˆ๋Š”(์ด๋ฏธ ์žˆ๋Š”) ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€์„ค์„ ์„ธ์›Œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•. ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์™€ ํŠน์ง•์„ ํŒŒ์•…ํ•˜๋ฉฐ ์–ป์€ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ†ต๊ณ„๋ชจํ˜•์„ ๋งŒ๋“œ๋Š” ๋‹จ๊ณ„. ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์— ์‚ฌ์šฉ.
  1. ์•„๋ž˜์˜ ๋งํฌ์™€ ์ธ์šฉ๊ตฌ๋ฅผ ์ฐธ์กฐํ•ด, EDA์˜ ์ค‘์š”์„ฑ์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐํ•ด๋ณด๊ณ  ์ž์œ ๋กญ๊ฒŒ ์ƒ๊ฐ์„ ์„œ์ˆ ํ•ด์ฃผ์„ธ์š”.
  • EDA๋Š” ์–ด๋–ค ๋ชฉ์ ์„ ์„ ์ •ํ•ด๋‘๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๊ณ  ๋ถ„์„ํ•˜๋Š” CDA์™€๋Š” ๋‹ค๋ฅด๊ฒŒ ๋ง๊ทธ๋Œ€๋กœ 'ํƒ์ƒ‰์ '์ด๋ผ๋Š” ์ ์—์„œ ๊ทธ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. A๋ผ๋Š” ๋ชฉ์ ์ง€๋ฅผ ๋‘๊ณ  ๋ฒ„์Šค๋ฅผ ์–ด๋–ป๊ฒŒ ํƒ€๊ณ , ์ง€ํ•˜์ฒ ์„ ๊ฐˆ์•„ํƒ€์„œ ๋ช‡๋ถ„ ๊ฑธ์–ด๊ฐ€๋ฉด ๋˜๊ฒ ๋‹ค ๋ผ๋Š” ๋А๋‚Œ์ด ์•„๋‹Œ ์ผ๋‹จ ์ถœ๋ฐœํ•ด์„œ ์•ž์œผ๋กœ ๋‚˜์•„๊ฐ€๋ฉด์„œ ๊ทธ ๋•Œ ๊ทธ ๋•Œ ์ƒํ™ฉ์— ๋Œ€์ฒ˜ํ•˜๋Š” 'ํƒํ—˜'์˜ ๋А๋‚Œ๊ฐ™๊ธฐ๋„ ํ•˜๊ณ ...... ์ฃผ์–ด์ง„ ์ƒํ™ฉ(๋ฐ์ดํ„ฐ)์„ ์‹œ๊ฐํ™”ํ•ด๋ณด๊ณ  ํ†ต๊ณ„์  ์ˆ˜์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ณด๊ณ  ์ด๋ฆฌ์ €๋ฆฌ ๋œฏ์–ด๋ณด๋ฉด์„œ ํŠน์ • ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ๋งค๋ ฅ์ ์ด๊ณ  ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์žˆ์–ด ๊ฐ€์žฅ ์ตœ์šฐ์„ ์œผ๋กœ ์ˆ˜ํ–‰๋˜์–ด์•ผํ•  ๋‹จ๊ณ„๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.
    "'์ž˜๋ชป๋œ ์งˆ๋ฌธ'์— ๋Œ€ํ•œ 'ํ™•์‹คํ•œ ๋‹ต'์€ ํ•ญ์ƒ ๊ฒฐ๋ก ์ด ํ™•์‹คํ•  ์ˆ˜๋Š” ์žˆ์œผ๋‚˜, ์ข…์ข… ๊ฒฐ๋ก ์ด ์• ๋งค๋ชจํ˜ธํ•˜๊ฒŒ ๋‚˜๊ธด ํ•˜์ง€๋งŒ '์ •ํ™•ํ•œ ์งˆ๋ฌธ'์— ๋Œ€ํ•œ '๋Œ€๋žต์ ์ธ ๋‹ต'์ด ๋” ๋‚ซ๋‹ค." ์—์„œ ๊ฐ€์žฅ ํ•ต์‹ฌ์€ 'ํ™•์‹คํ•œ ๋‹ต'๋ณด๋‹ค '์ •ํ™•ํ•œ ์งˆ๋ฌธ'์ด ์šฐ์„ ์ด๋ž€ ๊ฒŒ ์•„๋‹๊นŒ ์‹ถ์Šต๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ EDA๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ์ •ํ™•ํ•œ ์งˆ๋ฌธ์„ ํ•  ์ˆ˜ ์žˆ์„์ง€ ์ƒ๊ฐํ•ด๋ณด๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1.

๋‹ค์Œ ๋งํฌ๋Š” ๋‹ค์–‘ํ•œ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•๋“ค์ด ๋‚˜์™€์žˆ๋Š” Seaborn๊ณผ Matplotlib ์˜ ๊ณต์‹๋ฌธ์„œ์ž…๋‹ˆ๋‹ค.
๋งํฌ ์†์˜ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜์—ฌ, ๊ณ ๋ฅธ ์ด์œ ์™€ ํ•ด๋‹น ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ•์˜ ์žฅ์ ์„ ์†Œ๊ฐœํ•ด ์ฃผ์„ธ์š”.

๋™๊ธฐ๋ถ„๋“ค์—๊ฒŒ ์„ค๋ช…ํ•˜๋“ฏ์ด ํ˜น์€ ๊ฐ•์˜๋ฅผ ํ•˜๋“ฏ์ด ์ž์œ ๋กญ๊ฒŒ ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”!

2.

ํ™•์ฆ์  ๋ฐ์ดํ„ฐ ๋ถ„์„(CDA: Confirmatory Data Analysis)๊ณผ
ํƒ์ƒ‰์  ์ž๋ฃŒ ๋ถ„์„(EDA: Exploratory Data Analysis)์˜ ์ฐจ์ด์ ์„ ์„ค๋ช…ํ•˜๊ณ ,
๊ฐ๊ฐ ์–ด๋–ค ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋˜๋Š”์ง€ ๋ง์”€ํ•ด์ฃผ์„ธ์š”.

3.

์•„๋ž˜์˜ ๋งํฌ์™€ ์ธ์šฉ๊ตฌ๋ฅผ ์ฐธ์กฐํ•ด, EDA์˜ ์ค‘์š”์„ฑ์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐํ•ด๋ณด๊ณ  ์ž์œ ๋กญ๊ฒŒ ์ƒ๊ฐ์„ ์„œ์ˆ ํ•ด์ฃผ์„ธ์š”.

์ž˜๋ชป๋œ ์งˆ๋ฌธ'์— ๋Œ€ํ•œ 'ํ™•์‹คํ•œ ๋‹ต'์€ ํ•ญ์ƒ ๊ฒฐ๋ก ์ด ํ™•์‹คํ•  ์ˆ˜๋Š” ์žˆ์œผ๋‚˜, ์ข…์ข… ๊ฒฐ๋ก ์ด ์• ๋งค๋ชจํ˜ธํ•˜๊ฒŒ ๋‚˜๊ธด ํ•˜์ง€๋งŒ '์ •ํ™•ํ•œ ์งˆ๋ฌธ'์— ๋Œ€ํ•œ '๋Œ€๋žต์ ์ธ ๋‹ต'์ด ๋” ๋‚ซ๋‹ค. -John Tukey

  • ๋งํฌ
  • John Tukey ๋Š” ๋ฒจ ์—ฐ๊ตฌ์†Œ์—์„œ ๊ทผ๋ฌดํ•˜๋ฉด์„œ bit ๋ผ๋Š” ๋‹จ์–ด๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ ๋ถ„์ž…๋‹ˆ๋‹ค. 1977๋…„์— ๋ฐ์ดํ„ฐ ๋ถ„์„์— ๋Œ€ํ•ด ๋‚ธ ์ฑ…์ด ์žˆ๋Š”๋ฐ, ๊ทธ ์ฑ…์˜ ์ด๋ฆ„์ด Exploratory Data Analysis ์ž…๋‹ˆ๋‹ค.