[TIL]33.Choose your ML problems

목표

예측모델을 위한 테갓을 선택, 그 분포를 확인
train/val set 사이 또는 target/features 사이에 일어나는 정보 누출(leakage) 예방
상황에 맞는 검증 지표(metrics; 평가지표) 사용

데이터 과학자 실무 프로세스

비즈니스 문제
- 실무자들과 대화를 통해 문제 발견
데이터 문제
- 문제와 관련된 데이터를 발견 및 수집
데이터 문제 해결
- 데이터 처리, 시각화
- 머신러닝, 통계
비즈니스 문제 해결
- 데이터 문제 해결을 통해 실무자들과 비즈니스 문제 해결

타겟 선정 및 그 분포 확인

지도학습(Supervised learning)에서 예측할 타겟을 선정
타겟에 따라 회귀(Regression) / 분류(Classification) 문제 구분
- 구분이 어려운 경우도 존재
- 또한, 이산형, 순서형, 범주형 특성은 회귀문제 또는 다중 클래스 분류 문제로도 볼 수 있습니다.
- 회귀, 다중 클래스 분류 문제들도 이진분류 문제로 바꿀 수 있습니다.

예시) 타겟값이 다중 클래스 분류형으로 평점 1 ~ 5점인 경우, 일정 기준(3.5)을 잡고 그 이상은 True(1), 미만은 False(0)으로 판단하여 이진분류 문제로 바꿀 수 있습니다.

팁)

df.describe(include='all').T
# 이렇게 하면 모든 데이터에 대한 통계 요약 보는 게 가능하고 .T를 써서 칼럼명이 로우에, 각 통계값이 칼럼으로 가서 보기 편하다.

정보 누수(Leakage ; 누출)

target 외에 예측 시점에 사용할 수 없는 데이터가 포함되어 학습이 이뤄진 경우(즉, 미래가 반영된 특성이 존재하는 경우)
Train set과 Val set을 완전히 분리하지 못했을 경우(중복된 경우 검증 단계에서 정확도가 비약적으로 높게 나올 수 있음)

데이터에 대한 완전한 판단이 안설 때, 모델 학습 후 평가를 진행 시 예측이 100%에 근접하다면 'Leakage'가 발생했을 가능성이 매우매우매우 높음!!!

Q. 타겟과 상관관계가 높은 특성은 'Leakage'로 판단할 수 있을까? 생각해보기

모델 평가지표(Metrics)

보통 Scikit-learn metrics(sklearn.metrics)에 여러 평가지표들이 다 있습니다.
회귀(Regression)/분류(Classification)에 따라 평가지표가 달라집니다.

데이터 편향(accuracy만으로 모델 선능을 판단하면 안되는 이유)

ex) 암 발병 유무를 예측하는 머신러닝 모델을 학습시킬 때, 상대적으로 '실제로 암에 걸린 사람들의 수'(True, 1) 보다 '암에 걸리지 않은 사람들의 수'(False, 0)이 더 많을 수 밖에 없습니다. 그렇게 되면 자연스럽게 '암에 걸리지 않은 사람들의 데이터'가 기준이 되어 머신러닝 모델이 학습됩니다. 그러나 우리는 어떤 특정 한명 개개인에 대해 암 발병 유무를 판단해야하므로 이런 편향이 반영되면 안됩니다.
이를 해결하기 위해 target의 각 class(True(1)/False(0))에 다른 가중치를 부여합니다.(데이터 수가 더 적은 쪽에 무게를 더 실어줌)
추가) 모델 학습 전, 0이 90개/ 1이 10개인 타겟에 대해 기준 모델로 y_pred=0 을 세팅하여 accuracy를 90%라고 말하는 것과 같은 문제입니다. 이 경우도, 데이터 자체가 0이 90개로 많기 때문에 정확도가 90%가 나온 것이고 이 90%는 언뜻 보기에 굉장히 높은 수치같지만 우리에겐 유의미한 수치는 아닙니다.

아래의 경우 True label(세로축)에서 True가 False보다 현저히 적음

정확도 또한 0.83으로 높아보이지만, True의 precision 및 recall 값이 현저히 떨어집니다.

ROC cuve도 y=x 선과 거의 비슷하므로 좋은 모델이 아님을 알 수 있습니다. (AUC score = 0.5992)

불균형 클래스(target 데이터가 편향되어있는 경우)

1) 분류(Classification)

타겟값 비율 확인

y_train.value_counts(normalize=True)

해결 방법

데이터 수가 적은 범주 데이터의 손실을 계산할 때 가중치를 더 곱하여 균형을 맞추는 방법
- sklearn의 모델들에 class_weight과 같은 클래스의 balance를 맞춰주는 파라미터를 가지고 있습니다.
적은 범주 데이터를 추가로 샘플링(oversampling)하거나 반대로 많은 범주 데이터를 적게 샘플링(undersampling)하는 방법

1번 방법의 예시)

class_weight에서 원하는 비율을 적용하거나, class_weight ='balanced' 또는 'balanced_subsample'(방법의 미묘한 차이는 따로 구글링)

class_weight 비율을 각각 0.5:0.5로 맞추기 위한 방법

# class weights 계산
# n_samples / (n_classes * np.bincount(y))
custom = len(y_train)/(2*np.bincount(y_train)) # 그냥 value_counts로 해도 될 것 같다.
custom

# 파이프라인을 만들어 봅시다.
pipe = make_pipeline(
    OrdinalEncoder(), 
    DecisionTreeClassifier(max_depth=5, class_weight={False:custom[0],True:custom[1]}, random_state=2)
)
    # DecisionTreeClassifier(max_depth=5, class_weight='balanced', random_state=2) -> 이건 balanced 방법

아래와 같이 정리된 모습

True의 precision과 recall 값이 증가

시각적으로 큰 차이는 없지만 AUC score = 0.6241 로 다소 증가했음을 알 수 있습니다.

회귀(Regression)

타겟의 분포를 확인(비대칭 여부)
선형 회귀 모델
- 일반적으로 특성과 타겟간 선형관계를 가정
- 특성과 타겟의 분포가 정규분포 형태일 때 좋은 성능을 보입니다.
  즉, 타겟이 왜곡된 형태의 분포(skewed)인 경우 예측 성능에 부정적인 영향을 미칩니다.

sns.displot(target);