키워드

학습률
가중치 초기화
과적합 방지(가중치 감소, 드롭아웃, 얼리스타핑)

학습률 감소/계획법(Learning rate Decay/Scheduling)

학습률(Learning rate) : 매 가중치에 대해 구해진 기울기 값을 얼마나 적용할지를 결정하는 하이퍼파라미터

위에서 보는 것과 같이 학습률은 가중치를 갱신하는 과정(경사하강법)에서 해당 지점의 기울기를 얼마나 반영할지를 정해주는 파라미터입니다.

학습률이 너무 낮은 경우 : 시간이 너무 오래 걸리거나 끝내 최적점에 도달하지 못하게 됨
학습률이 너무 높은 경우 : 최적점을 지나쳐 발산하게 될 가능성 존재

위와 같은 문제를 해결하기 위한 방법들이 존재

학습률 감소(Learning rate Decay)
- 여러 옵티마이저(Adagrad, RMSprop, Adam 등)에 이미 구현되어 있어 쉽게 적용 가능
- 해당 옵티마이저의 하이퍼파라미터를 조정함으로써 감소 정도를 변경 가능
- 예시
```
model.compile(optimizer=tf.keras.optimizers.Adam(lr=0.001, beta_1 = 0.89)
       , loss='sparse_categorical_crossentropy'
       , metrics=['accuracy'])
```

학습률 계획법(Learning rate Scheduling)

위 그림과 같이 한번에 큰 learning rate을 주고(warm-up step) 천천히 낮춰나가는 방법
예시

first_decay_steps = 500
initial_learning_rate = 0.05
lr_decayed_fn = (
  tf.keras.experimental.CosineDecayRestarts(
      initial_learning_rate,
      first_decay_steps))

model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=lr_decayed_fn)
             , loss='sparse_categorical_crossentropy'
             , metrics=['accuracy'])

가중치 초기화(Weight Initialization)

초기 가중치를 설정하는 방법

표준편차가 1인 정규분포로 가중치를 초기화한 경우

대부분의 활성화 값이 0 과 1에 치우쳐져 있음

표준편차가 0.01인 정규분포로 가중치를 초기화한 경우

대부분 0.5로 활성화 값이 치우쳐짐

Xavier 초기화를 적용한 경우(Glorot Xavier가 고안한 방법으로, glorot 초기화 라고도 부름)

표준편차가 고정값(특정 상수)인 정규분포로 초기화 시 발생하는 문제점을 해결하기 위해 고안
이전 층의 노드 수가 n 개일 때, 현재 층의 가중치를 표준편차가 1 / root(n) 인 정규분포로 초기화
단, Keras에서는 이전 층의 노드 수가 n개, 현재 층의 노드 수가 m개일 때, 현재 층의 가중치를 표준편차가 2 / root(n+m)인 정규분포로 초기화

활성화 함수가 Sigmoid인 경우에 유용합니다.

tf.keras.initializers.GlorotNormal()

He 초기화를 적용한 경우(Kainig He가 고안한 방법으로, Kaiming 초기화 라고도 부름)

이전 층의 노드 수가 n 개 일 때, 현재 층의 가중치를 표준편차가 root(2 / n)인 정규분포로 초기화
ReLU함수를 활성화 함수로 할 때, Xavier 초기화의 문제를 해결하기 위해 고안
ReLU에 Xavier 초기화 사용한 경우(아래 그림) -> 점차 분포가 치우치는 것을 볼 수 있고 이는 곧 기울기 소실로 이어집니다.

ReLU에 He 초기화 사용한 경우

tf.keras.initializers.HeNormal()

- 활성화 함수 = 시그모이드, Xavier 초기화
- 활성화 함수 = 렐루, He 초기화

과적합 방지

인공지능 안에 머신러닝 안에 딥러닝
즉, 머신러닝에서 발생하는 문제와 그에 대한 해결책은 딥러닝에도 동일하게 적용 가능
딥러닝은 노드 수가 조금만 증가해도 파라미터가 기하급수적으로 증가하고 모델이 복잡해짐
즉, 과적합될 가능성이 굉장히 높음

1. 가중치 감소(Weight Decay)

과적합은 주로 가중치 값이 클 때 발생
따라서 가중치가 너무 커지지 않도록 조건을 부여(머신러닝에서의 Ridge Regression에서 패널티 부여하듯)

L1 Regularization(Lasso) : 절댓값 합
L2 Regularization(Ridge) : 제곱값 합

적용 예시)

Dense(64, kernel_regularizer=regularizers.l2(0.01), activity_regularizer=regularizers.l1(0.01))

kernel_regularizer => 가중치에 패널티 # 주로 L2 제약 사용
activity_regularizer => 활성화 함수에 패널티 # 주로 L1 제약 사용
bias_regularizer => 편향에 패널티

2. 드롭 아웃(Drop Out)

Iteration마다 레이어 노드 중 일부를 사용하지 않으면서 학습을 진행하는 방법
매 Iteration마다 다른 노드가 학습되면서 전체 가중치가 과적합되는 것을 방지

적용 예시)

Dense(128,
      kernel_regularizer=regularizers.l2(0.01),
      activity_regularizer=regularizers.l1(0.01))
Dropout(0.5) # 128개 중에 64개를 사용하지 않겠다. dropout을 할 레이어의 아래줄에 위치, 레이어 괄호를 닫고 쓴다는 점에 유의

3. 얼리 스타핑(Early Stopping)

Train set(학습 데이터)에 대한 손실은 계속 줄어들지만, Validation set(검증 데이터)에 대한 손실은 증가할 때, 미리 학습을 종료하는 방법

적용 예시)

# 파라미터 저장 경로 및 파일명을 설정하는 코드입니다.
checkpoint_filepath = "best.hdf5" 
# 최적의 모델로 갱신될 때마다 저장할 위치

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)
# val_loss가 최소값을 갖고 이 후 10번까지 더 최소값이 갱신되지 않으면 멈춘다.

save_best = tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_filepath, monitor='val_loss', verbose=1, save_best_only=True,
    save_weights_only=True, mode='auto', save_freq='epoch', options=None)

model.fit(X_train, y_train, batch_size=32, epochs=30, verbose=1, 
          validation_data=(X_test,y_test), 
          callbacks=[early_stop, save_best])

!ls # 지정된 경로에 조기종료된 모델이 있는지 확인

model.load_weights(checkpoint_filepath) # 조기종료한 모델의 가중치를 불러오기

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]75. 신경망 개념 정리 (0)	2022.03.01
[TIL]74. 신경망 - Hyper parameter (0)	2022.02.25
[TIL]72. 신경망 학습 (0)	2022.02.23
[TIL]71. 인공 신경망 (0)	2022.02.22
[TIL]70.퍼셉트론 (0)	2022.02.22

[TIL]73. 더 나은 신경망 학습을 위한 방법

학습률 감소/계획법(Learning rate Decay/Scheduling)

가중치 초기화(Weight Initialization)

과적합 방지

1. 가중치 감소(Weight Decay)

2. 드롭 아웃(Drop Out)

3. 얼리 스타핑(Early Stopping)

'💿 Data > 부트캠프' 카테고리의 다른 글

티스토리툴바