Data Wrangling
์๋ฏธ
- raw data๋ฅผ ๋ ์์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ ํํ๋ก ๋ฐ๊พธ๋ ๋ชจ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.(Data cleaning, Data remediation, Data munging ์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํฉ๋๋ค.)
๊ตฌ์ฑ(๋จ๊ณ)
- Discovery(๋ฐ๊ฒฌ)
- ๋ฐ์ดํฐ์ ๋ํด ์น์ํด์ง๋ ๋จ๊ณ๋ก, EDA ๋จ๊ณ์ ๊ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ, ํต๊ณ์น ๋ฑ์ ์ดํด๋ณด๋ฉฐ ๋ฐฉํฅ์ ์ก๋ ๋จ๊ณ์ ๋๋ค.
- Structuring(๊ตฌ์กฐํ)
- ์ผ๋ฐ์ ์ธ raw data๋ ๋ฐ๋ก ์ฌ์ฉํ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ raw data๋ฅผ ์ ์ ํ๊ฒ ์กฐํฉํ์ฌ ์ํ๋ ๋ฐ์ดํฐํ๋ ์์ ์ป๋ ๋จ๊ณ์ ๋๋ค.
- ์ค๋ ์ ํฌ๊ฐ ๋ฐฐ์ด merge, groupby ๋ฑ์ ์ด์ฉํ ํน์ฑ ์์ฑ ๋ฐ ์ ๋ฆฌ๊ฐ ์ด ๋จ๊ณ์ ํด๋นํฉ๋๋ค.
- Cleaning(์ฒญ์)
- ๋ฐ์ดํฐ ๋ถ์์ ์์ด ์ํฅ์ ์ฃผ๋ ์ค๋ฅ๋ฅผ ์ ๊ฑฐํ๋ ๋จ๊ณ๋ก, ์ด์์น/๊ฒฐ์ธก์น ์ ๊ฑฐ ๋ฐ ์ค๋ณต๊ฐ ์ ๊ฑฐ ๋ฑ์ด ํด๋น๋ฉ๋๋ค.
- Enriching(๋ณด๊ฐ, ์ฆ๊ฐ)
- 3๋ฒ๊น์ง์ ๊ณผ์ ์ดํ, ํ๋ก์ ํธ์ ์ฌ์ฉ๋ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ์ค๋น๋์๋์ง ํ๋จํ๋ ๋จ๊ณ์
๋๋ค. ๋ ํ์ํ๊ฑฐ๋ ๋ณด๊ฐํด์ผํ๋ ๋ฐ์ดํฐ๊ฐ
์๋ค๋ฉด ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ณ ์ด์ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค.
- Validating(๊ฒ์ฆ)
- ๋ฐ์ดํฐ์ ์ผ๊ด์ฑ, ํ์ง์ ํ๋จํ๊ณ ๊ฒ์ฆํ๋ ๋จ๊ณ์
๋๋ค. ๋ฐ์ดํฐ์ ํ์ ํ์ธ, ๋ฐ์ดํฐ ์ฒ ์, ์คํ ๊ฒ์ฌ ๋ฑ๋ ํด๋น๋ฉ๋๋ค. ํน์ฑ ๊ฐ์ ๊ฐ
๋น๊ต ๋ํ ํด๋น๋ฉ๋๋ค. ์์๋ก '๋ฐฐ๋ฌ ์์ ์๊ฐ' ํน์ฑ์ ์ซ์๊ฐ '๋ฐฐ๋ฌ ๋์ฐฉ ์๊ฐ' ํน์ฑ์ ์ซ์๋ณด๋ค ํฐ ๊ฒฝ์ฐ ๋ฑ์ด ์์ต๋๋ค.
- Publishing(ํผ๋ธ๋ฆฌ์ฑ)
- ๋ชจ๋ ์ฒ๋ฆฌ๊ฐ ๋๋๊ณ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด๋ ๋๋ ๋จ๊ณ์
๋๋ค. ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ, ๋ค๋ฅธ ๋ถ์์ ์ ๋ฌํ๋ ์ฉ๋ ๋ฑ '๋ฐ์ดํฐ๋ฅผ ์ด๋๋ก
์ฌ์ฉํด๋ ๋ฌธ์ ๊ฐ ์์'์ ์ธ์ ๋ฐ์ ๋จ๊ณ์ ๋๋ค.
์ค์๋
- ๋น์ฆ๋์ค์์ ์ํ๋์ด์ง๋ ๋ชจ๋ ๋ถ์์ ๊ถ๊ทน์ ์ผ๋ก ์ ๊ณต๋๋ ๋ฐ์ดํฐ์ ์ํด ์ข์ฐ๋ฉ๋๋ค. ๋ฐ์ดํฐ๊ฐ ๋ถ์์ ํ๊ฑฐ๋, ์ ๋ขฐํ ์ ์๊ฑฐ๋
๊ฒฐํจ์ด ์๋ ๊ฒฝ์ฐ, ์ธ์ฌ์ดํธ์ ๊ฐ์น๊ฐ ๋จ์ด์ง๊ฒ ๋ฉ๋๋ค. - Data Wrangling์ ์ค์ํ ์์์ด์ง๋ง, ์ํ ์ ๋ง์ ์๊ฐ๊ณผ ์์์ด ์๋ชจ๋๋ ์ ๋ ์ ์ํด์ผํฉ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ง์ ๊ธฐ์
๋ค์์
Data Wrangling์ ๋ํ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ํํ๋ ์ ์ฑ ๋ฐ ์ฌ๋ก๋ฅผ ๋์ ํ๊ณ ์์ต๋๋ค.
์ถ๊ฐ์ฌํญ
- Data gathering ๋ํ Wrangling์ ์ฒซ๋ฒ์งธ ๋จ๊ณ๋ก ๊ตฌ๋ถํ๊ธฐ๋ ํฉ๋๋ค. ์กฐ๊ธ์ฉ ํ๋ก์ ํธ๋ฅผ ์ํ ๋ฐ์ดํฐ ์์นญ์ ํ๋ฉด์ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ
์ป์ ์ ์๊ณ ๋ชจ์ผ๋ ๋ฐฉ๋ฒ๋ค(์น์คํฌ๋ํ ๋ฑ)์ ๋ฐฐ์ฐ๊ณ ์ถ๋ค๋ ์๊ฐ์ด ๋๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ด์์ ๋๋ค. ๊ฐ์ฌํฉ๋๋ค. :)
์ฐธ๊ณ 1: Data Wrangling
์ฐธ๊ณ 2: Data Gathering
์ฐธ๊ณ 3: Data Wrangling and Gathering
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Boosting(vs bagging) (0) | 2022.01.06 |
---|---|
Model Interpreting (0) | 2022.01.06 |
๋ฐ์ดํฐ ์ง๋ฌด ๊ฐ๋จ ์ ๋ฆฌ(๋น ๋ฐ์ดํฐ ์ปค๋ฆฌ์ด ๊ฐ์ด๋๋ถ ์ฐธ๊ณ ) (0) | 2022.01.02 |
HyperParameter tuning (0) | 2022.01.01 |
Evaluation metrics for Classification (0) | 2021.12.31 |