Jayden1116 2022. 1. 4. 00:28

Data Wrangling

์˜๋ฏธ

  • raw data๋ฅผ ๋” ์†์‰ฝ๊ฒŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ฐ”๊พธ๋Š” ๋ชจ๋“  ๊ณผ์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.(Data cleaning, Data remediation, Data munging ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.)

๊ตฌ์„ฑ(๋‹จ๊ณ„)

  1. Discovery(๋ฐœ๊ฒฌ)
  • ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์นœ์ˆ™ํ•ด์ง€๋Š” ๋‹จ๊ณ„๋กœ, EDA ๋‹จ๊ณ„์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ, ํ†ต๊ณ„์น˜ ๋“ฑ์„ ์‚ดํŽด๋ณด๋ฉฐ ๋ฐฉํ–ฅ์„ ์žก๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
  1. Structuring(๊ตฌ์กฐํ™”)
  • ์ผ๋ฐ˜์ ์ธ raw data๋Š” ๋ฐ”๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ํž˜๋“ค๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ๊ฐ์˜ raw data๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์กฐํ•ฉํ•˜์—ฌ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ์–ป๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
  • ์˜ค๋Š˜ ์ €ํฌ๊ฐ€ ๋ฐฐ์šด merge, groupby ๋“ฑ์„ ์ด์šฉํ•œ ํŠน์„ฑ ์ƒ์„ฑ ๋ฐ ์ •๋ฆฌ๊ฐ€ ์ด ๋‹จ๊ณ„์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
  1. Cleaning(์ฒญ์†Œ)
  • ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์žˆ์–ด ์˜ํ–ฅ์„ ์ฃผ๋Š” ์˜ค๋ฅ˜๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋‹จ๊ณ„๋กœ, ์ด์ƒ์น˜/๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ ๋ฐ ์ค‘๋ณต๊ฐ’ ์ œ๊ฑฐ ๋“ฑ์ด ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค.
  1. Enriching(๋ณด๊ฐ•, ์ฆ๊ฐ•)
  • 3๋ฒˆ๊นŒ์ง€์˜ ๊ณผ์ • ์ดํ›„, ํ”„๋กœ์ ํŠธ์— ์‚ฌ์šฉ๋  ๋ชจ๋“  ๋ฐ์ดํ„ฐ๊ฐ€ ์ค€๋น„๋˜์—ˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๋” ํ•„์š”ํ•˜๊ฑฐ๋‚˜ ๋ณด๊ฐ•ํ•ด์•ผํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€
    ์žˆ๋‹ค๋ฉด ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ์ด์ „ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  1. Validating(๊ฒ€์ฆ)
  • ๋ฐ์ดํ„ฐ์˜ ์ผ๊ด€์„ฑ, ํ’ˆ์งˆ์„ ํŒ๋‹จํ•˜๊ณ  ๊ฒ€์ฆํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ํ˜•์‹ ํ™•์ธ, ๋ฐ์ดํ„ฐ ์ฒ ์ž, ์˜คํƒ€ ๊ฒ€์‚ฌ ๋“ฑ๋„ ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค. ํŠน์„ฑ ๊ฐ„์˜ ๊ฐ’
    ๋น„๊ต ๋˜ํ•œ ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋กœ '๋ฐฐ๋‹ฌ ์‹œ์ž‘ ์‹œ๊ฐ' ํŠน์„ฑ์˜ ์ˆซ์ž๊ฐ€ '๋ฐฐ๋‹ฌ ๋„์ฐฉ ์‹œ๊ฐ' ํŠน์„ฑ์˜ ์ˆซ์ž๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  1. Publishing(ํผ๋ธ”๋ฆฌ์‹ฑ)
  • ๋ชจ๋“  ์ฒ˜๋ฆฌ๊ฐ€ ๋๋‚˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด๋„ ๋˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์— ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ, ๋‹ค๋ฅธ ๋ถ€์„œ์— ์ „๋‹ฌํ•˜๋Š” ์šฉ๋„ ๋“ฑ '๋ฐ์ดํ„ฐ๋ฅผ ์ด๋Œ€๋กœ
    ์‚ฌ์šฉํ•ด๋„ ๋ฌธ์ œ๊ฐ€ ์—†์Œ'์„ ์ธ์ •๋ฐ›์€ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

์ค‘์š”๋„

  • ๋น„์ฆˆ๋‹ˆ์Šค์—์„œ ์ˆ˜ํ–‰๋˜์–ด์ง€๋Š” ๋ชจ๋“  ๋ถ„์„์€ ๊ถ๊ทน์ ์œผ๋กœ ์ œ๊ณต๋˜๋Š” ๋ฐ์ดํ„ฐ์— ์˜ํ•ด ์ขŒ์šฐ๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์™„์ „ํ•˜๊ฑฐ๋‚˜, ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๊ฑฐ๋‚˜
    ๊ฒฐํ•จ์ด ์žˆ๋Š” ๊ฒฝ์šฐ, ์ธ์‚ฌ์ดํŠธ์˜ ๊ฐ€์น˜๊ฐ€ ๋–จ์–ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • Data Wrangling์€ ์ค‘์š”ํ•œ ์š”์†Œ์ด์ง€๋งŒ, ์ˆ˜ํ–‰ ์‹œ ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ์ž์›์ด ์†Œ๋ชจ๋˜๋Š” ์ ๋„ ์œ ์˜ํ•ด์•ผํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๋งŽ์€ ๊ธฐ์—…๋“ค์—์„œ
    Data Wrangling์— ๋Œ€ํ•œ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ„์†Œํ™”ํ•˜๋Š” ์ •์ฑ… ๋ฐ ์‚ฌ๋ก€๋ฅผ ๋„์ž…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ถ”๊ฐ€์‚ฌํ•ญ

  • Data gathering ๋˜ํ•œ Wrangling์˜ ์ฒซ๋ฒˆ์งธ ๋‹จ๊ณ„๋กœ ๊ตฌ๋ถ„ํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์กฐ๊ธˆ์”ฉ ํ”„๋กœ์ ํŠธ๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์„œ์นญ์„ ํ•˜๋ฉด์„œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ
    ์–ป์„ ์ˆ˜ ์žˆ๊ณ  ๋ชจ์œผ๋Š” ๋ฐฉ๋ฒ•๋“ค(์›น์Šคํฌ๋ž˜ํ•‘ ๋“ฑ)์„ ๋ฐฐ์šฐ๊ณ ์‹ถ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“œ๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด์ƒ์ž…๋‹ˆ๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. :)

์ฐธ๊ณ 1: Data Wrangling
์ฐธ๊ณ 2: Data Gathering
์ฐธ๊ณ 3: Data Wrangling and Gathering