๐Ÿ’ฟ Data/๋ถ€ํŠธ์บ ํ”„

[TIL]5.์ฝ”๋“œ์Šคํ…Œ์ด์ธ  AI ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€

Jayden1116 2021. 11. 24. 01:11

์ฝ”๋“œ์Šคํ…Œ์ดํŠธ AI ๋ถ€ํŠธ์บ ํ”„ ์ฒซ ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€

๋ฌธ์ œ๋Š” ๊ณต๊ฐœํ•˜๋ฉด ์•ˆ๋  ๊ฒƒ ๊ฐ™์•„ ๋‹ค์‹œ ๋ณต์Šตํ•˜๋Š” ์˜๋ฏธ๋กœ ์ž‘์„ฑ

Data Preprocessing & Exploratory Data Analysis

  • Data Preprocessing
  1. ๋ฐ์ดํ„ฐ ๋กœ๋“œ
import pandas as pd
df = pd.read_csv('')

๊ฒฐ์ธก์น˜ ์—ฌ๋ถ€ ์ฒดํฌ

df.isna()

์Šค์บํ„ฐ ํ”Œ๋ž ๊ทธ๋ฆฌ๊ธฐ

df.plot.scatter('a', 'b')

์—ฌ๊ธฐ์„œ a์™€ b๋Š” df์˜ ๊ฐ ์ปฌ๋Ÿผ

  1. join data
    df.drop(columns='')
    ํ•ด๋‹นํ•˜๋Š” ์นผ๋Ÿผ ๋ฒ„๋ฆฌ๊ธฐ
df1.merge(df2, how = '', on ='')

df1์„ ๊ธฐ์ค€์œผ๋กœ df2๋ฅผ ํ•ฉ์นœ๋‹ค. how์—๋Š” ํ•ฉ์น˜๋Š” ๋ฐฉ๋ฒ•(๊ตฌ๊ธ€๋งํ•ด๋ณด๊ธฐ), on์—๋Š” ํ•ฉ์น  ๋•Œ ๊ธฐ์ค€์ด ๋˜๋Š” ์นผ๋Ÿผ

  1. Feature Engineeringdf['']์— ํ•ด๋‹นํ•˜๋Š” ์นผ๋Ÿผ์„ df์˜ ์ธ๋ฑ์Šค๋กœ ์„ธํŒ…ํ•˜๊ฒ ๋‹ค.
  2. df.set_index(df[''])
  3. Data Manipulationํƒ€์ด๋”” df๋ฅผ wide df๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ์—ญํ• . ์ฆ‰, melt์˜ ๋ฐ˜๋Œ€ ์—ญํ• ์„ ํ•˜๋Š” ํ•จ์ˆ˜
    columns : "wide" ๋ฐ์ดํ„ฐ์—์„œ column ๋ณ„๋กœ ๋‹ค๋ฅด๊ฒŒ ํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’
    values : ๊ฒฐ๊ณผ๊ฐ’์ด ๋“ค์–ด๊ฐ€๋Š” ๊ณณ(wide df์˜ ๋‚ด์šฉ์— ๋“ค์–ด๊ฐˆ ๊ฐ’)
  4. df.pivot_table(columns='', values='')
df.T

df์˜ ์ธ๋ฑ์Šค์™€ ์นผ๋Ÿผ์„ ๋’ค์ง‘๋Š” ํ•จ์ˆ˜

df.nlargest(10,'')

df์—์„œ ''์— ํ•ด๋‹นํ•˜๋Š” ์นผ๋Ÿผ ์ค‘ ๊ฐ€์žฅ ํฐ ๊ฐ’๋“ค์„ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ 10๊ฐœ ์ •๋ฆฌ ํ•˜๋Š” ๊ฒƒ

ํŒ

from importlib import reload
reload(plt)

๊ฐ€๋” matplotlib์ด ๊ณ„์† ์•ˆ๊ทธ๋ ค์งˆ ๋•Œ๊ฐ€ ์žˆ๋Š”๋ฐ ์ด๋ ‡๊ฒŒ ํ•œ๋ฒˆ ๋ฆฌ๋กœ๋“œํ•ด์ฃผ๋ฉด ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค!