NA Value Handling
19๋
๋ 4๋ถ๊ธฐ์ ๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ) ๋ถ๋ถ์ Na๋ก ๋์ฒดํ์ธ์
์ดํ ํด๋น ๊ฒฐ์ธก์น๋ฅผ mean imputation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌํ์ธ์.
Feature Engineering
Relative Perfomance ๋ผ๋ ์๋ก์ด feature๋ฅผ ๊ณ์ฐํ์ธ์.
์ด๋ ์ต๊ทผ 1๋ ์น ๋งค์ถ์ก์ ํ๊ท ๊ฐ์ ๊ธฐ์ค์ผ๋ก
10% ์ด์ -> S
5% ์ด์ -> A
-5 ~ 5% -> B
-5%์ดํ -> C
10%์ดํ -> D
๋ผ๋ ๊ฐ์ ๊ฐ๋ feature์
๋๋ค.
20๋ ๋ 2๋ถ๊ธฐ์ ํด๋นํ๋ ๊ฒฐ๊ณผ๊ฐ์ A๊ฐ ๋์์ผํฉ๋๋ค.
๊ฐ๊ฐ์ ํด๋นํ๋ ๋ฑ๊ธ์ด ๋์ค๊ธฐ ์ํด์ ํ์ํ ๋งค์ถ์ก์ ์ถ๊ฐ๋ก ์์ ํ์ธ์.
url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv'
headers = ['๋ถ๊ธฐ', '๋งค์ถ์ก', '์์
์ด์ต', '์์
์ด์ต(๋ฐํ๊ธฐ์ค)', '์ธ์ ๊ณ์์ฌ์
์ด์ต',
'๋น๊ธฐ์์ด์ต', '๋น๊ธฐ์์ด์ต(์ง๋ฐฐ)', '๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ)', '์์ฐ์ด๊ณ', '๋ถ์ฑ์ด๊ณ',
'์๋ณธ์ด๊ณ', '์๋ณธ์ด๊ณ(์ง๋ฐฐ)', '์๋ณธ์ด๊ณ(๋น์ง๋ฐฐ)', '์๋ณธ๊ธ', '์์
ํ๋ํ๊ธํ๋ฆ',
'ํฌ์ํ๋ํ๊ธํ๋ฆ', '์ฌ๋ฌดํ๋ํ๊ธํ๋ฆ', '์์
์ด์ต๋ฅ ', '์์ด์ต๋ฅ ', 'ROE(%)',
'ROA(%)', '๋ถ์ฑ๋น์จ', '์๋ณธ์ ๋ณด์จ', 'EPS(์)', 'PER(๋ฐฐ)']
import pandas as pd
import numpy as np
df = pd.read_csv(url,names=headers)
1. ๊ฒฐ์ธก์น๋ก ๋์ฒด ํ ํ๊ท ๊ฐ์ผ๋ก ๋์ฒด
df.loc[2,'๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ)'] = np.NAN # ๊ฒฐ์ธก์น๋ก ๋ฐ๊ฟ์ฃผ์์ต๋๋ค.
df.fillna({'๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ)':df['๋น๊ธฐ์์ด์ต(๋น์ง๋ฐฐ)'].mean(), '์๋ณธ์ด๊ณ(๋น์ง๋ฐฐ)':df['์๋ณธ์ด๊ณ(๋น์ง๋ฐฐ)'].mean()}, inplace=True) # ๊ฒฐ์ธก์น๊ฐ ์๋ ์ปฌ๋ผ๋ค์ ํ์ธ ํ ๊ฐ๊ฐ์ ์ปฌ๋ผ ํ๊ท ๊ฐ์ผ๋ก ๋์ฒดํ์์ต๋๋ค.
2. Relative Perfomance ๋ผ๋ ์๋ก์ด feature๋ฅผ ๊ณ์ฐํ์ธ์.
def Toint(string) :
return int(string.replace(',',''))
df['๋งค์ถ์ก']= df['๋งค์ถ์ก'].apply(Toint) # ๋จผ์ ์ผํ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ ์๋ฃ ์ ํ์ ์ ์ํ์ผ๋ก ๋ณ๊ฒฝํ์์ต๋๋ค.
def RP_category(x) :
if x >= 1.1 * df['๋งค์ถ์ก'].mean() :
return 'S'
elif x >= 1.05 * df['๋งค์ถ์ก'].mean() :
return 'A'
elif x >= 0.95 * df['๋งค์ถ์ก'].mean() :
return 'B'
elif x >= 0.90 * df['๋งค์ถ์ก'].mean() :
return 'C'
else :
return 'D'
df['Relative Performance'] = df['๋งค์ถ์ก'].apply(RP_category) # ๋ง์ฐฌ๊ฐ์ง๋ก ๋ญํน์ ๋ถ์ฌํ๋ ํจ์๋ฅผ ์ ์ํ๊ณ apply๋ก ๊ฐ๊ฐ์ ๊ฐ์ ์ ์ฉํ์์ต๋๋ค.
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Python ๋ฏธ๋ถ (0) | 2021.12.10 |
---|---|
๋ฐ์ดํฐ ์ ๋ฆฌ ๋ฐ ์๊ฐํ ์์ ๊ธฐ๋ก (0) | 2021.12.10 |
Seaborn 'penguins' (0) | 2021.12.09 |
๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ ์์2 (0) | 2021.12.07 |
๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ ์์1 (0) | 2021.12.07 |