[TIL]30.Evaluation Metrics for Classification(Precision, Recall, f1score, threshold, ROC curve, AUC)

목표

Counfusion Matrix에 대한 이해 및 해석
정밀도, 재현율을 이해하고 사용
ROC Curve, AUC score에 대한 이해

feature engineering 팁

def engineer(df):
    """특성을 엔지니어링 하는 함수입니다."""

    # 새로운 특성을 생성합니다.
    behaviorals = [col for col in df.columns if 'behavioral' in col] 
    df['behaviorals'] = df[behaviorals].sum(axis=1) # 'behavioral'이라는 단어가 포함된 column에 대해서 sum한 새로운 변수 만들기


    # 계절독감(seas)에 대한 모델을 학습할 것이기 때문에 h1n1에 대한 특성을 제거합니다.
    dels = [col for col in df.columns if ('employment' in col or 'h1n1' in col)]
    df.drop(columns=dels, inplace=True) # 'employment'와 'h1n1'이 들어간 column을 drop

    return df

Confusion Matrix

분류 모델의 성능 평가 지표를 확인할 수 있습니다.

from sklearn.metrics import plot_confusion_matrix
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
pcm = plot_confusion_matrix(pipe, X_val, y_val,
                            cmap=plt.cm.Blues,
                            ax=ax);
plt.title(f'Confusion matrix, n = {len(y_val)}', fontsize=15)
plt.show()

흔히 우리가 아는 긍정(True, 1)이 좌측 상단에 존재하는 경우와 혼동하지 않도록 해야합니다.(축을 잘 확인할 것)

cm = pcm.confusion_matrix
cm # 위의 사진에서 confusion matrix 테이블만 가져오기

TP = cm[1][1]
TN = cm[0][0]
FP = cm[0][1]
FN = cm[1][0]

correct_predictions = np.diag(cm).sum() # np.diag는 대각요소들로 행렬을 만드는 것
correct_predictions # 즉, TP + TN 입니다. (예측값과 실제값이 일치하는 경우입니다.)

total_predictions = cm.sum()
total_predictions

classification accuracy = correct_predictions/total_predictions
# 분류 정확도는 accuracy_score(y_val, y_pred)와 같은 값을 갖습니다.

Precision(정밀도), Recall(재현율 ; Sensitivity), F1 score

정밀도(Precision) : Positive로 예측한 경우 중 Positive를 맞춘 비율

$$Precision = \frac{TP}{TP + FP}$$

재현율(Recall, Sensitivity) : 실제 Positive인 경우 중 Positive를 맞춘 비율

$$Recall(Sensitivity) = \frac{TP}{TP + FN}$$

F1 점수(F1 score) : 정밀도와 재현율의 조화평균(harmonic mean)

$$F1 score = 2\cdot\frac{precision\cdot recall}{precision + recall}$$

참고
F beta score

$$β = \frac{Recall}{Precision}$$

다루는 문제에 따라 어떤 평가지표를 우선시 해야하는지 판단해야합니다.

병원에서 초기 암진단을 하는 경우
암이 있다고 예측했는데 없는 경우(FP)보다 암이 없다고 예측했는데 있는 경우(FN)이 더 치명적이므로 재현율을 평가지표로 사용해야할 것입니다.
스팸 메일을 구분하는 경우
스팸 메일이 아닌 것으로 분류했는데, 스팸 메일인 경우(FN)보다 스팸 메일로 분류했는데, 스팸 메일이 아닌 경우(FP)가 더 치명적이므로 정밀도가 평가지표로 더 유용할 것입니다.
넷플릭스 영화 추천의 경우
좋아하지 않는 영화라고 예측했는데, 좋아하는 영화인 경우(FN)(정확히 이 경우는 우리가 알아챌 수 없습니다. 좋아하지 않는 영화라고 예측하면 추천에 뜨지 않을테니)보다 좋아하는 영화라고 예측했는데, 좋아하는 영화가 아닌 경우(FP)가 추천시스템에 대한 신뢰도에 더 영향을 줄 것입니다.

여러 평가지표 한번에 확인하기

from sklearn.metrics import classification_report
print(classification_report(y_val, y_pred))

Threshold(임계치)

임계치를 어떻게 설정하느냐에 따라 0과 1을 구분짓는 기준이 달라지게 됩니다.(같은 말)

# 모델에서 돌릴 때 예시
threshold = 0.5
y_pred_proba = pipe.predict_proba(X_val)[:, 1]
y_pred = y_pred_proba > threshold

이런 임계치를 한눈에 보고 찾아서 이용할 수 있는 방법이 바로 ROC curve를 그리고 AUC score

ROC curve 및 AUC

ROC curve : 여러 임계값에 따른 TPR과 FPR의 그래프를 보여줍니다.

재현율을 높이기 위해서는 Positive로 판단하는 임계값을 계속 낮추어 모두 Positive로 판단하게 만들면 됩니다. 그러나 이러면 동시에 Negative이지만 Positive로 판단하는 위양성률(FPR)도 함께 증가합니다.
재현율은 최대화하고 위양성률은 최소화하는 임계값이 최적의 임계값
AUC : Area Under the Curve 즉, ROC curve의 아래 면적을 말합니다.
싸이킷런에서 roc_curve 활용 예시

from sklearn.metrics import roc_curve

# roc_curve(타겟값, prob of 1)
fpr, tpr, thresholds = roc_curve(y_val, y_pred_proba)

roc = pd.DataFrame({
    'FPR(Fall-out)': fpr, 
    'TPRate(Recall)': tpr, 
    'Threshold': thresholds
})
roc

plt.scatter(fpr, tpr)
plt.title('ROC curve')
plt.xlabel('FPR(Fall-out)')
plt.ylabel('TPR(Recall)');

# threshold 최대값의 인덱스, np.argmax()
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]

print('idx:', optimal_idx, ', threshold:', optimal_threshold)

idx: 256 , threshold: 0.4633333333333334

y_pred_optimal = y_pred_proba >= optimal_threshold # 이렇게 threshold를 적용

from sklearn.metrics import roc_auc_score # AUC_score 구하는 방법
auc_score = roc_auc_score(y_val, y_pred_proba)
auc_score # negative와 positive가 더 잘 구분되어있다는 의미일테니!

추가 팁

ROC curve는 이진분류문제에서 사용할 수 있습니다. 다중분류문제에서는 각 클래스를 이진클래스 분류문제로 변환(One Vs All)하여 구할 수 있습니다.

3-class(A, B, C) 문제 -> A vs (B,C), B vs (A,C), C vs (A,B) 로 나누어 수행

분류문제에서 모델을 올바르게 평가하기 위해서는 정확도 외에도 정밀도, 재현율 을 잘 이해하고 사용해야 한다는 것을 알았습니다. 특히 각 범주를 예측하는 기준이 되는 임계값의 위치에 따라 정밀도나 재현율이 달라지기 때문에 문제의 상황에 따라 적절한 임계값을 선택할 필요성이 있습니다. 이진 분류문제에서는 ROC curve와 AUC 점수를 잘 활용하면 좋은 결과를 만들어낼 수 있습니다.

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]32.Section2 Sprint2 Chall(Sprint2 키워드 중심 정리) (0)	2021.12.31
[TIL]31.Model Selection(모델 선택) (0)	2021.12.30
[TIL]29.RandomForest(랜덤포레스트) (0)	2021.12.27
[TIL]28.Decision Tree(의사결정나무) (0)	2021.12.26
[TIL]27.Section2_sprint1 challenge (0)	2021.12.24

목표