1. Basic Vision Model

This entry is part 1 of 22 in the series Vision Model

내용 요약

이번 글에서는 딥러닝 Vision Model의 초창기 버전이라고 할 수 있는 AlexNet, VGGNet, GoogleNet, Batch Normalization, ResNet 등을 비교해보며 각각의 의의를 살펴봅니다.

1. 들어가며

초창기 CNN 모델인 AlexNet, VGGNet, GoogleNet, Batch Normalization, ResNet 등을 비교하며 각각의 의의를 살펴봅니다. 2012년 AlexNet이 ImageNet 콘테스트에서 압도적인 격차로 1등을 한 뒤로 Image Classification을 위한 다양한 CNN 모델들이 연구되며 딥러닝의 화려한 부활을 알렸습니다. 이때 나온 다양한 모델들은 다양한 시도를 하며 CNN을 발전시켰습니다.

2. 논문 별 의의

먼저 5개 논문의 모델 구성을 모식화하여 비교해보면 다음과 같습니다.

img
그림1. 모델별 비교

위 그림을 바탕으로 각 논문별 핵심 철학과 의의를 살펴보겠습니다.

2-1. [12′ NIPS] AlexNet

먼저 12년 NIPS에 발표된 AlexNet은 다음과 같은 의의를 갖습니다.

2.AlexNet 구조
그림2. AlexNet 구조

첫 번째로 거대 이미지 데이터셋인 ImageNet에서 처음으로 CNN 모델을 GPU로 학습하여 좋은 성능을 냈다는 점입니다. 이로 인해 침체기에 빠져있던 딥러닝은 화려하게 부활하게 됩니다.
두 번째로 ReLU, Drop Out, Data Augmentation 등을 사용하여 CNN의 표준을 제시했다는 점입니다. 이후 논문에서도 이러한 방법들은 계속 사용되며 CNN의 표준으로 자리 잡게 됩니다. 

AlexNet의 자세한 내용은 AlexNet 논문 리뷰글에서 확인할 수 있습니다.

2-2. [15′ CVPR] VGGNet

15년 CVPR에 발표된 VGGNet은 다음과 같은 의의를 갖습니다.

3.3x3 convolution 2개와 5x5 convolution이 비교
그림3. 3×3 Convolution과 5×5 Convolution 비교

첫 번째로 3×3 Convolution을 조합하면 더 적은 연산 양으로도 얼마든지 큰 Receptive Field Size의 Convolution 연산을 대체할 수 있다는 것을 밝힌 점입니다. AlexNet이 11×11 사이즈의 Convolution을 주력으로 사용한데 반해 VGGNet은 모든 Convolution을 3×3 사이즈만 사용하면서도 깊고 성능이 좋은 모델을 구현하였습니다. 이후 대부분의 연구에서 3×3 Convolution을 주력으로 사용하게 됩니다.
두 번째는 깊고 단순한 구조로 좋은 성능을 냈다는 점입니다. 동일 시기에 발표된 GoogleNet이 비교적 복잡한 구조를 갖고 있는 반면, VGGNet은 단순한 구조로도 좋은 성능을 보여 이후 연구에 많은 영감을 주게 됩니다.

VGGNet의 자세한 내용은 VGGNet 논문 리뷰글에서 확인할 수 있습니다.

2-3. [15′ ICLR] GoogleNet (Inception)

15년 ICLR에 발표된 GoogleNet(Inception)은 다음과 같은 의의를 갖습니다.

4.Inception module 구조
그림4. Inception Module 구조

첫 번째로 다양한 Convolution으로 이루어진 모듈의 효율성을 입증한 점입니다. Inception 모듈은 다양한 Convolution의 조합으로 구성되었습니다. 이는 AlexNet의 Convolution + Activation 구성을 하나의 모듈로 대체하는 역할을 수행했습니다. 이후 연구들에서는 이러한 아이디어에 영감을 얻어 모듈화, 블럭화의 방향으로 연구가 진행됩니다.
두 번째로 1×1 Convolution의 중요성을 입증했다는 점입니다. Inception 모듈에서는 1×1 Convolution이 성능을 높여줄 뿐만 아니라 연산량도 줄여주는 중요한 역할을 수행합니다. 이에 영감을 얻어 이후 연구에서는 1×1 Convolution이 활발하게 사용되게 됩니다.

Inception의 자세한 내용은 Inception 논문 리뷰글에서 확인할 수 있습니다.

2-4. [15′ ICML] Batch Normalization (Inception v2)

15년 ICML에 발표된 Batch Nomalization(Inception v2)는 다음과 같은 의의를 갖습니다.

5.Batch normalization 구성
그림5. Batch Normalization 구성

첫 번째로 Deep 모델 학습의 근본적인 문제점이 Covariate Shift라는 점을 밝히고 이를 해결할 방법을 제시했다는 점입니다.
두 번째로 이를 통해 더욱더 깊은 모델을 만들어 성능을 향상했을 뿐만 아니라 학습 시간을 대폭 단축할 수 있었다는 점입니다.

Batch Normalization의 자세한 내용은 Batch Normalization 논문 리뷰글에서 확인할 수 있습니다.

2-5. [16′ CVPR] ResNet

16년 CVPR에 발표된 ResNet은 다음과 같은 의의를 갖습니다.

6.ResNet block 구성
그림6. ResNet block 구성

첫 번째는 Convolution Layer 사이의 지름길을 이어줌으로써 Vanishing Gradient 문제를 해결할 수 있는 하나의 방법을 제시했다는 점입니다.
두 번째는 Bottleneck 구조와 지름길 방법을 결합하여 매우 깊은 모델을 만들 수 있게 되었다는 점입니다.

ResNet의 자세한 내용은 ResNet 논문 리뷰글에서 확인할 수 있습니다.

Series Navigation[12′ NIPS] ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) 핵심 리뷰 >>
0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
Scroll to Top