Feature Engineering_결측치 처리, apply 함수 적용

💿 Data/이모저모

Feature Engineering_결측치 처리, apply 함수 적용

Jayden1116 2021. 12. 9. 22:40

NA Value Handling
19년도 4분기의 당기순이익(비지배) 부분을 Na로 대체하세요
이후 해당 결측치를 mean imputation 방법을 사용하여 처리하세요.

Feature Engineering
Relative Perfomance 라는 새로운 feature를 계산하세요.

이는 최근 1년치 매출액의 평균값을 기준으로

10% 이상 -> S
5% 이상 -> A
-5 ~ 5% -> B
-5%이하 -> C
10%이하 -> D
라는 값을 갖는 feature입니다.

20년도 2분기에 해당하는 결과값은 A가 나와야합니다.

각각에 해당하는 등급이 나오기 위해서 필요한 매출액을 추가로 서술하세요.

url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv'
headers = ['분기', '매출액', '영업이익', '영업이익(발표기준)', '세전계속사업이익',
           '당기순이익', '당기순이익(지배)', '당기순이익(비지배)', '자산총계', '부채총계',
           '자본총계', '자본총계(지배)', '자본총계(비지배)', '자본금', '영업활동현금흐름',
           '투자활동현금흐름', '재무활동현금흐름', '영업이익률', '순이익률', 'ROE(%)',
           'ROA(%)', '부채비율', '자본유보율', 'EPS(원)', 'PER(배)']

import pandas as pd
import numpy as np

df = pd.read_csv(url,names=headers)

1. 결측치로 대체 후 평균값으로 대체

df.loc[2,'당기순이익(비지배)'] = np.NAN # 결측치로 바꿔주었습니다.

df.fillna({'당기순이익(비지배)':df['당기순이익(비지배)'].mean(), '자본총계(비지배)':df['자본총계(비지배)'].mean()}, inplace=True) # 결측치가 있는 컬럼들을 확인 후 각각의 컬럼 평균값으로 대체하였습니다.

2. Relative Perfomance 라는 새로운 feature를 계산하세요.

def Toint(string) :
    return int(string.replace(',',''))

df['매출액']= df['매출액'].apply(Toint) # 먼저  쉼표를 제거하고 데이터 자료 유형을 정수형으로 변경하였습니다.

def RP_category(x) :
    if x >= 1.1 * df['매출액'].mean() :
        return 'S'
    elif x >= 1.05 * df['매출액'].mean() :
        return 'A'
    elif x >= 0.95 * df['매출액'].mean() :
        return 'B'
    elif x >= 0.90 * df['매출액'].mean() :
        return 'C'
    else :
        return 'D'

df['Relative Performance'] = df['매출액'].apply(RP_category) # 마찬가지로 랭킹을 부여하는 함수를 정의하고 apply로 각각의 값에 적용하였습니다.