키워드

CNN(Convolutional Neural Network)
padding, stride, filter
Pooling
Transfer Learning
Image Data Augmentation

CNN(Convolutional Neural Network ; 합성곱 신경망)

컴퓨터 비전에서 자주 사용되는 신경망
이미지의 공간적인 특성을 최대한 보존하며 학습하기에 좋음

[CNN]구조

크게 특징 추출 부분 과 분류를 위한 신경망 부분으로 나눌 수 있습니다.

[CNN] 특징 추출 부분

[CNN] 합성곱(Convolution)

격자 형태를 가진 이미지 데이터를 특정 격자의 크기를 가진 필터를 통해 합성곱을 진행해나아갑니다.
필터의 격자 갯수가 곧 가중치들이 됩니다.
ex) 필터 (5, 5), 필터 갯수 3, 채널 수 3 일 때 총 가중치 갯수는 5 * 5 * 3 * 3 = 225 가 됩니다.

[합성곱]패딩(Padding)

위에서 필터를 통해 이미지를 sliding할 때, 코너에 있는 격자값은 그 활용도가 매우 떨어지게 됩니다.
예를 들어 (0, 0)에 위치한 값은 첫번째 필터를 거치는 것말고는 거쳐가는 필터가 없습니다.
이런 문제를 해결하기 위해 이미지 데이터 테두리에 주로 0을 둘러주고 합성곱을 진행합니다.
각 격자값을 더 잘 활용할 수 있고 출력되는 Feature map의 shape 을 input과 동일하게 할 수 있다는 장점이 있습니다.

[합성곱]스트라이드(Stride)

필터가 sliding 시 움직이는 간격을 의미합니다.
stride의 값에 따라서도 출력되는 Feature map의 크기가 달라지게 됩니다.

Feature map의 크기(합성곱 output의 크기)

필터 크기(Filter size), 패딩(Padding), 스트라이드(Stride)에 따른 Feature map 크기 변화

$$
N_{\text{out}} = \bigg[\frac{N_{\text{in}} + 2p - k}{s}\bigg] + 1
$$

$N_{\text{in}}$ : 입력되는 이미지의 크기(=피처 수)
$N_{\text{out}}$ : 출력되는 이미지의 크기(=피처 수)
$k$ : 합성곱에 사용되는 커널(=필터)의 크기
$p$ : 합성곱에 적용한 패딩 값
$s$ : 합성곱에 적용한 스트라이드 값

[CNN] 풀링(Pooling)

주로 합성곱 과정 이후 진행되는 과정
가로, 세로 방향의 공간을 줄이기 위함이며 Max pooling(최대값 선택)과 Average pooling(평균값 선택)을 주로 사용합니다.

풀링 또한 stride의 개념이 있지만 주로 풀링하는 격자의 크기와 동일하게 하여 데이터가 겹치지 않도록 합니다.
풀링 층에서는 학습해야할 가중치가 없고 채널 수가 변하지 않는다는 특징이 있습니다.

[CNN] 완전 연결 신경망(Fully connected Layer) = 분류를 위한 신경망 부분

합성곱 과정 이후 문제에 따라 정의되는 마지막 단계로 MLP(다층 퍼셉트론) 신경망으로 구성을 하게 됩니다.
풀어야하는 문제에 따라 출력층을 설계합니다.

추가 개념

층이 깊어질수록 필터는 더 전체적인 특징을 잡게 됩니다.

첫번째 필터링을 할 때는, 필터 1번 합성곱 과정에서 이미지의 세세한 부분을 담게 됩니다.
이후 Convolution layer가 쌓일수록 필터에 담기는 이미지의 정보는 더 큰 범위의 이미지가 담기게 됩니다.(점차 크기가 줄면서 이미지가 압축되니까)

전이 학습(Transfer Learning)

사전 학습 모델의 가중치를 가져와서 학습하는 방법
즉, CNN의 특징 추출 부분(가중치)을 가져와서 뒤에 완전 연결 신경망만 원하는 문제에 따라 설계한 후, 갖고 있는 데이터를 학습시킬 수 있습니다.
데이터를 구하는데 시간을 아끼고, 복잡하게 따로 모델링할 것 없이 잘 만들어진 구조를 가져오기 때문에 유용합니다.

사전 학습 모델(Pre-trained Model)

성능이 좋은 모델을 대량의 데이터로 학습시켜놓은 모델
대표적으로 VGG, GoogLeNet, ResNet 등이 있습니다.

이미지 데이터 증강(Image Data Augmentation)

갖고 있는 이미지 데이터를 회전, 반전, 자르기, 밝기 변화, 채도 변화 등을 통해 더 다양한 학습 데이터를 만드는 방법입니다.
학습 데이터를 더 다양하게 늘리기 때문에 Data Augmentation의 일종입니다.
ex) 고양이가 늘 귀가 위에 다리가 아래에 있는 사진만 있는 것이 아니기 때문에 이렇게 데이터 증강을 통해 더 다양한 사진을 고양이로 학습시킬 수 있게 됩니다.

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL] 84. AutoEncoder (0)	2022.03.14
[TIL] 83. Image Segmentation, Object Detection/Recognition (0)	2022.03.12
[TIL] 81. Section4 Sprint2 (0)	2022.03.09
[TIL] 80. Transformer (0)	2022.03.09
[TIL] 79. 인코더-디코더, Attention (0)	2022.03.08

티스토리툴바