์ฝ๋์คํ ์ดํธ AI ๋ถํธ์บ ํ ์ฒซ ์คํ๋ฆฐํธ ์ฑ๋ฆฐ์ง
๋ฌธ์ ๋ ๊ณต๊ฐํ๋ฉด ์๋ ๊ฒ ๊ฐ์ ๋ค์ ๋ณต์ตํ๋ ์๋ฏธ๋ก ์์ฑ
Data Preprocessing & Exploratory Data Analysis
- Data Preprocessing
- ๋ฐ์ดํฐ ๋ก๋
import pandas as pd
df = pd.read_csv('')
๊ฒฐ์ธก์น ์ฌ๋ถ ์ฒดํฌ
df.isna()
์ค์บํฐ ํ๋ ๊ทธ๋ฆฌ๊ธฐ
df.plot.scatter('a', 'b')
์ฌ๊ธฐ์ a์ b๋ df์ ๊ฐ ์ปฌ๋ผ
- join data
ํด๋นํ๋ ์นผ๋ผ ๋ฒ๋ฆฌ๊ธฐdf.drop(columns='')
df1.merge(df2, how = '', on ='')
df1์ ๊ธฐ์ค์ผ๋ก df2๋ฅผ ํฉ์น๋ค. how์๋ ํฉ์น๋ ๋ฐฉ๋ฒ(๊ตฌ๊ธ๋งํด๋ณด๊ธฐ), on์๋ ํฉ์น ๋ ๊ธฐ์ค์ด ๋๋ ์นผ๋ผ
- Feature Engineeringdf['']์ ํด๋นํ๋ ์นผ๋ผ์ df์ ์ธ๋ฑ์ค๋ก ์ธํ ํ๊ฒ ๋ค.
df.set_index(df[''])
- Data Manipulationํ์ด๋ df๋ฅผ wide df๋ก ๋ฐ๊ฟ์ฃผ๋ ์ญํ . ์ฆ, melt์ ๋ฐ๋ ์ญํ ์ ํ๋ ํจ์
columns : "wide" ๋ฐ์ดํฐ์์ column ๋ณ๋ก ๋ค๋ฅด๊ฒ ํ๊ณ ์ ํ๋ ๊ฐ
values : ๊ฒฐ๊ณผ๊ฐ์ด ๋ค์ด๊ฐ๋ ๊ณณ(wide df์ ๋ด์ฉ์ ๋ค์ด๊ฐ ๊ฐ) df.pivot_table(columns='', values='')
df.T
df์ ์ธ๋ฑ์ค์ ์นผ๋ผ์ ๋ค์ง๋ ํจ์
df.nlargest(10,'')
df์์ ''์ ํด๋นํ๋ ์นผ๋ผ ์ค ๊ฐ์ฅ ํฐ ๊ฐ๋ค์ ๋ด๋ฆผ์ฐจ์์ผ๋ก 10๊ฐ ์ ๋ฆฌ ํ๋ ๊ฒ
ํ
from importlib import reload
reload(plt)
๊ฐ๋ matplotlib์ด ๊ณ์ ์๊ทธ๋ ค์ง ๋๊ฐ ์๋๋ฐ ์ด๋ ๊ฒ ํ๋ฒ ๋ฆฌ๋ก๋ํด์ฃผ๋ฉด ๋๋ ๊ฒฝ์ฐ๊ฐ ์๋ค!
'๐ฟ Data > ๋ถํธ์บ ํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL]8.Confidence Intervals (0) | 2021.11.27 |
---|---|
[TIL]7.Hypothesis Test + (0) | 2021.11.26 |
[TIL]1.Exploratory Data Analysis(EDA) (0) | 2021.11.24 |
[TIL]6.Hypothesis Test (0) | 2021.11.24 |
00. ๋ถํธ์บ ํ์ ๋ค์ด๊ฐ๊ธฐ์ ์์ (2) | 2021.11.15 |