[TIL]35.Feature Importance

💿 Data/부트캠프

[TIL]35.Feature Importance

Jayden1116 2022. 1. 4. 21:50

목표

특성 중요도 계산 방법들 이해 및 모델 해석에 활용
Boosting에 대한 이해 및 모델 학습

특성 중요도

Feature Importance(Mean Decrease Impurity ; MDI)

sklearn 트리 기반 분류기에서 기본으로 사용되는 계산 방법으로 각각의 특성을 모든 트리에 대해 평균 불순도 감소(MDI)를 계산한 값입니다.

불순도 감소(impurity decrease)는 다음과 같이 계산합니다:

$$\displaystyle \frac{N_t}{N}$ * (impurity - \displaystyle\frac{N_{tR}}{N_t} * Rightimpurity - \displaystyle\frac{N_{tL}}{N_t}$ * Leftimpurity)$$

$$N: 전체 관측치 수, N_t: 현재 노드 t에 존재하는 관측치 수$$

$$N_{tL}, N_{tR}: 노드 t 왼쪽(L)/오른쪽(R) 자식노드에 존재하는 관측치 수$$

$$만약 SampleWeight가 주어진다면, N, N_t, N_{tR}, N_{tL}는 가중합을 합니다.$$

주의점 : MDI Feature Importance는 high cardinality features에 대해 과하게 높은 값이 나오는 경향이 있습니다.
범주가 많을수록 각 노드에 기여할 확률이 높기 때문입니다.(특히 max_depth의 제한을 두지 않는다면 더욱이 과하게 측정됩니다.)

예시)

# 특성 중요도
rf = pipe.named_steps['randomforestclassifier']
importances = pd.Series(rf.feature_importances_, X_train.columns)

%matplotlib inline
import matplotlib.pyplot as plt

n = 20
plt.figure(figsize=(10,n/2))
plt.title(f'Top {n} features')
importances.sort_values()[-n:].plot.barh();

Drop-Column Importance

특성마다 하나씩 drop 전과 후로 데이터를 세팅하고 모델에 fitting하여 score를 비교하는 방법입니다.
이론적으로 특성의 중요도를 측정하는 가장 좋은 방법이지만, 그 과정이 다소 번거롭다는 단점이 있습니다.

예시)

column  = 'opinion_seas_risk' # 중요도를 측정해보고싶은 특성

# opinion_h1n1_risk 없이 fit
pipe = make_pipeline(
    OrdinalEncoder(), 
    SimpleImputer(), 
    RandomForestClassifier(n_estimators=100, random_state=2, n_jobs=-1)
)
pipe.fit(X_train.drop(columns=column), y_train)
score_without = pipe.score(X_val.drop(columns=column), y_val)
print(f'검증 정확도 ({column} 제외): {score_without}')

# opinion_h1n1_risk 포함 후 다시 학습
pipe = make_pipeline(
    OrdinalEncoder(), 
    SimpleImputer(), 
    RandomForestClassifier(n_estimators=100, random_state=2, n_jobs=-1)
)
pipe.fit(X_train, y_train)
score_with = pipe.score(X_val, y_val)
print(f'검증 정확도 ({column} 포함): {score_with}')

# opinion_h1n1_risk 포함 전 후 정확도 차이를 계산합니다
print(f'{column}의 Drop-Column 중요도: {score_with - score_without}')

Permutation Importance(Mean Decrease Accuracy ; MDA) ; 순열 중요도

기본 특성 중요도(MDI)와 Drop-Column 중요도의 중간에 위치한다고 볼 수 있습니다.
관심있는 특성에만 무작위로 노이즈를 주고 예측하였을 때 성능 평가지표(accuracy, F1, R2 등)가 감소하는 정도를 측정합니다.
Drop-Column 중요도와 다르게 검증데이터에서 각 특성을 제거하지 않고 특성값에 무작위로 노이즈를 주어 기존 정보를 제거하고
성능을 측정할 수 있습니다. 노이즈를 주는 가장 간단한 방법은 해당 특성값들을 샘플 내에서 섞는 것(shuffle, permutation)입니다.

예시1)

# 변경 할 특성을 선택합니다
feature = 'opinion_seas_risk'
X_val[feature].head()

# 특성의 분포를 확인합니다
X_val[feature].value_counts()

# 특성의 값을 무작위로 섞습니다
X_val_permuted = X_val.copy()
X_val_permuted[feature] = np.random.RandomState(seed=7).permutation(X_val_permuted[feature])

# 특성 값의 순서가 뒤바뀐 것을 확인합니다
X_val_permuted[feature].head()

# 카테고리들의 분포는 바뀌지는 않았음을 확인합니다
X_val_permuted[feature].value_counts()

# 순열 중요도 값을 얻습니다. (재학습이 필요 없습니다!)
score_permuted = pipe.score(X_val_permuted, y_val)

print(f'검증 정확도 ({feature}): {score_with}')
print(f'검증 정확도 (permuted "{feature}"): {score_permuted}')
print(f'순열 중요도: {score_with - score_permuted}')

예시2) eli5 라이브러리 활용


! pip install eli5

import eli5
from eli5.sklearn import PermutationImportance

permuter = PermutationImportance(
            model, # 여기서 model은 미리 train set에 대해 fit이 되어있어야합니다.
            scoring='accuracy', # 다른 score들도 가능
            n_iter=5, # 다른 random seed를 사용해서 5번 반복합니다.
            random_state=2
            )

permuter.fit(X_val, y_val)

permuter.feature_importances_

추가) eli5.show_weights

# 특성별 score 확인
eli5.show_weights(
    permuter, 
    top=None, # top n 지정 가능, None 일 경우 모든 특성 
    feature_names=feature_names # list 형식으로 넣어야 합니다
)

Permutation Importance를 사용하여 특성을 선택하는 팁

minimum_importance = 0.001
mask = permuter.feature_importances_ > minimum_importance
features = X_train.columns[mask] # True에 해당하는 column만 가져온다.
X_train_selected = X_train[features]
X_val_selected = X_val[features]

위와 같이 특정 값 이상의 중요도를 가진 특성들만 따로 선택하여 모델에 다시 fitting하여 사용할 수 있습니다.
일반적으로 importance가 매우 작은 특성들은 제거해도 score에 큰 영향이 없으며 특성 갯수가 적으므로 더 효율적입니다.

추가) 중요도의 표준편차까지 고려하는 경우

permuter.feature_importances_ - permuter.feature_importances_std_ > 0 
# 순열 중요도의 평균 감소값과 그 표준편차의 차가 양수인 특징들을 확인할 수 있습니다.
# 표준편차까지 고려해서 양수, 즉 언제나 양수값
# 위의 중요도에서 8개가 feature importance는 0.001보다 큰 경우지만 표준편차까지 고려하면 7개만 양수에 해당합니다. ('education_comp'가 제외됨)

Boosting

배깅(랜덤포레스트)의 경우, 독립적인 여러 트리들을 만들지만
부스팅은 만들어지는 트리가 이전에 만들어진 트리의 영향을 받습니다.
배깅(랜덤포레스트)의 장점은 하이퍼파라미터에 상대적으로 덜 민감한 것인데, 부스팅(그래디언트 부스팅)의 경우 하이퍼파라미터
세팅에 따라 배깅보다 더 좋은 예측 성능을 보여줄 수 있습니다.
트리 기반 모델은 non-linear, non-monotonic 관계, 특성간 상호작용이 존재하는 데이터 학습에 적용하기 좋습니다.

AdaBoost

모든 샘플에 동일한 가중치를 시작으로 각 트리(weak learners)가 만들어질 때 잘못 분류되는 관측치(샘플)에 가중치를 줍니다.
다음 트리가 만들어질 때 이전 트리에서 잘못 분류된 샘플은 더 많은 가중치를 받아 더 많이 샘플링되어 그 샘플에
더 집중할 수 있게 됩니다.

Step 0. 모든 관측치에 대해 가중치를 동일하게 설정 합니다.
Step 1. 관측치를 복원추출 하여 약한 학습기 Dn을 학습하고 +, - 분류 합니다.
Step 2. 잘못 분류된 관측치에 가중치를 부여해 다음 과정에서 샘플링이 잘되도록 합니다.
Step 3. Step 1~2 과정을 n회 반복(n = 3) 합니다.
Step 4. 분류기들(D1, D2, D3)을 결합하여 최종 예측을 수행합니다.

최종 학습기(H(x))는 약한 학습기들(h_t)의 가중(α)합으로 만들어집니다. α는 Say(결정력)을 의미합니다. 결정력이 클수록 분류기
의 성능이 좋다는 뜻입니다.

추가) AdaBoost는 node 1개와 leaf 2개인 Stump를 기본 모델로 사용합니다. 여러 Stump의 조합입니다.

Gradient Boost

AdaBoost와 유사하지만 비용함수(Loss function)을 최적화하는 방법에 있어 차이가 있습니다.
AdaBoost가 샘플의 가중치를 동일하게 주고 조정하는 방법 대신 Gradient Boost에서는 잔차(residual)을 학습하도록 합니다.
잔차가 더 큰 데이터를 더 학습하도록 만드는 효과가 있습니다.
회귀와 분류 문제 모두 사용할 수 있습니다.

라이브러리

기본적으로 sklearn.ensemble에 AdaBoost와 GradientBoost가 구현되어있지만 부스팅은 보통 다른 더 좋은 라이브러리를 활용합니다.

XGBoost : 결측값을 수용, monotonic constrains를 강제할 수 있습니다.

import xgboost
from xgboost import XGBClassifier

LightGBM : 결측값을 수용, monotonic constrains를 강제할 수 있습니다.

import lightgbm
from lightgbm import LGBMClassifier

CatBoost : 결측값을 수용, categorical features를 전처리 없이 사용할 수 있습니다.

!pip install catboost # 구글 코랩 조건에서 따로 설치를 해주어야합니다.

import catboost
from catboost import CatBoostClassifier

참고 : monotonic constrains

monotonic constraints 효과, 단조증가해야 하는 특성이 오류로 비단조 증가할때 변수마다 적용 가능합니다.
값이 작은 부분에 대해서 데이터가 없어서 감소하는 거처럼 나오지만 우리가 이 특성은 단조증가(우상향)하는
걸 알고 있다면 이 부분을 보정해줄 수 있습니다.

Early Stopping

배깅과 다르게 부스팅은 그 안에 기본모델인 tree를 순차적으로 학습하게 됩니다. 따라서 모든 n_estimators(tree model의 수)
를 학습할 것 없이 일정 기준치까지만 채우면 학습하지 않게 조정할 수 있습니다.
GridSearchCV, RandomizedSearchCV 혹은 반복문으로 n_estimators의 최적의 값을 찾으려면 너무 많은 반복이 필요합니다.
또한, 다른 하이퍼파라미터와의 조합까지 경우의 수를 생각하면 학습 횟수가 비약적으로 증가합니다.
이럴 때, 부스팅의 경우 Early Stopping을 활용하여 아주 효과적으로 n_estimators를 최적화할 수 있습니다.

예시)

encoder = OrdinalEncoder()
X_train_encoded = encoder.fit_transform(X_train) # 학습데이터
X_val_encoded = encoder.transform(X_val) # 검증데이터

model = XGBClassifier(
    n_estimators=1000,  # <= 1000 트리로 설정했지만, early stopping 에 따라 조절됩니다.
    max_depth=7,        # default=3, high cardinality 특성을 위해 기본보다 높여 보았습니다.
    learning_rate=0.2,
#     scale_pos_weight=ratio, # imbalance 데이터 일 경우 비율을 적용합니다.
    n_jobs=-1
)

eval_set = [(X_train_encoded, y_train), 
            (X_val_encoded, y_val)]

model.fit(X_train_encoded, y_train, 
          eval_set=eval_set,
          eval_metric='error', # #(wrong cases)/#(all cases)
          early_stopping_rounds=50
         ) # 50 rounds 동안 스코어의 개선이 없으면 멈춤 # 스코어가 최고점을 찍고 이후 50개를 더 해보는 것
         # 아래 결과에서 validation_0_error가 train set에 대한 것/ validation_1_error가 val set에 대한 것
         # 최적의 n_estimators로 model이 fitting 됩니다.

참고)

위의 scale_pos_weight는 아래와 같이 줄 수 있습니다.

1에 해당하는 샘플에 가중을 주는 것이니 '타겟값(0) 갯수 / 타겟값(1) 갯수' 를 positive에 곱하면 둘의 비율이 1:1이 됩니다.

참고2)

다음과 같이 일정 수(예시에선 35) 이후로는 검증 데이터에 대한 error가 더 떨어지진 않는 것을 알 수 있습니다.

results = model.evals_result()
train_error = results['validation_0']['error']
val_error = results['validation_1']['error']

epoch = range(1, len(train_error)+1)
plt.plot(epoch, train_error, label='Train')
plt.plot(epoch, val_error, label='Validation')
plt.ylabel('Classification Error')
plt.xlabel('Model Complexity (n_estimators)')
plt.ylim((0.15, 0.25)) # Zoom in
plt.legend();

참고

하이퍼파라미터 튜닝

Random Forest

max_depth (높은값에서 감소시키며 튜닝, 너무 깊어지면 과적합)
n_estimators (적을경우 과소적합, 높을경우 긴 학습시간)
min_samples_leaf (과적합일경우 높임)
max_features (줄일 수록 다양한 트리생성, 높이면 같은 특성을 사용하는 트리가 많아져 다양성이 감소)
class_weight (imbalanced 클래스인 경우 시도)

XGBoost

learning_rate (높을경우 과적합 위험이 있습니다)
max_depth (낮은값에서 증가시키며 튜닝, 너무 깊어지면 과적합위험, -1 설정시 제한 없이 분기, 특성이 많을 수록 깊게 설정)
n_estimators (너무 크게 주면 긴 학습시간, early_stopping_rounds와 같이 사용)
scale_pos_weight (imbalanced 문제인 경우 적용시도)