[19′ ICCV] CutMix : Regularization Strategy to Train Strong Classifiers with Localizable Features

This entry is part 3 of 5 in the series Semi Supervised Learning

1. 들어가며

딥러닝 분야에서 데이터 증강은 모델의 성능을 향상시키는 핵심적인 방법 중 하나입니다. 특히 이미지 분류와 같은 비전 태스크에서는 다양한 데이터 증강 기법들이 연구되고 있습니다. Mixup과 Cutout은 그 중 대표적인 방법들로, 이미지 레벨에서의 조작을 통해 모델의 일반화 성능을 향상시키려는 시도들입니다. 그러나 이러한 기존의 방법들은 여전히 몇 가지 한계점을 가지고 있습니다.

이러한 문제점을 극복하고자, CutMix라는 새로운 데이터 증강 기법이 제안되었습니다. CutMix는 기존의 Mixup, Cutout과는 다르게 이미지의 특정 영역을 조작함으로써 모델이 더욱 다양한 패턴과 컨텍스트를 학습할 수 있도록 도와줍니다. 이 글에서는 CutMix의 핵심 아이디어와 방법론, 그리고 그 효과에 대해 자세히 알아보겠습니다. 특히, 다양한 실험 결과를 통해 CutMix의 장점과 단점, 그리고 그 의의에 대해서도 깊게 다뤄보려 합니다.

딥러닝 연구자나 엔지니어, 혹은 데이터 증강에 관심 있는 모든 분들에게 이 글이 CutMix에 대한 깊은 이해를 제공하고, 그 활용에 도움이 되길 바랍니다.

2. 기존 방법의 문제점

데이터 증강은 딥러닝 모델의 성능을 향상시키는 데 있어 핵심적인 요소 중 하나입니다. 그러나 기존의 데이터 증강 기법들은 주로 이미지 레벨에서의 조작에 중점을 둡니다. 예를 들어, Mixup은 두 이미지를 선형적으로 결합하여 새로운 이미지를 생성합니다. 이와 유사하게, Cutout은 이미지의 일부를 제거하여 모델이 더 강건하게 학습할 수 있도록 돕습니다.

이러한 기법들은 일정 수준에서 모델의 성능을 향상시킬 수 있지만, 그들의 접근 방식은 근본적인 한계를 가지고 있습니다. 바로 이들은 모델이 이미지의 일부분만 보고도 객체를 정확하게 인식할 수 있도록 학습하는 것입니다. 이는 실제 세계의 복잡한 시나리오에서 모델의 성능을 제한할 수 있습니다.

3. CutMix

이러한 문제점을 극복하기 위해서는 객체의 다양한 부분과 다양한 컨텍스트에서 학습할 수 있는 새로운 데이터 증강 기법이 필요한데요. 이러한 고려 사항을 바탕으로 CutMix가 탄생하게 되었으며, 이는 이미지의 특정 부분을 잘라내고 다른 이미지의 해당 부분을 삽입함으로써 모델이 더욱 다양한 패턴과 컨텍스트를 학습할 수 있게 해줍니다. 이로 인해, CutMix는 기존의 데이터 증강 기법들이 가진 한계를 극복하고 모델의 일반화 성능을 더욱 향상시킬 수 있습니다. 자세히 알아보겠습니다.

3-1. 제안 방법

CutMix 방법은 제목 그대로 다른 이미지의 일부를 잘라 섞는 방식입니다. 다른 방식들과 그림으로 비교해보면 다음과 같습니다.

그림1. 기존 방법과의 비교
그림1. 기존 방법과의 비교

위 그림은 Mixup, Cutout, CutMix의 Augmentation 방식을 비교한 그림입니다. Mixup은 Image Level에서 Interpolation을 수행합니다. Cutout은 이미지의 일부를 잘라내 Masking 처리합니다. 반면 마지막 CutMix는 강아지의 얼굴 부분에 고양이 사진이 잘려 들어간 모습을 볼 수 있습니다. 이를 수식으로 표현하면 다음과 같습니다.

제안방법-수식
그림2. CutMix 수식

이때 y의 𝜆는 패치의 사이즈 비율로 결정됩니다.

3-2. 효과

다음은 CutMix의 효과를 살펴보겠습니다.

그림3. CAM Activation 비교
그림3. CAM Activation 비교

위 그림은 ‘Bernard’와 ‘Poodle’ 클래스의 데이터를 Mixup, Cutout, Cutmix를 적용한 뒤 CAM Activation을 찍은 그림입니다. Mixup 방식은 하나의 그림에 두 개의 클래스가 엉켜 들어가 있기 때문에 클래스별로 Activation Map이 구분되지 않는 모습입니다. Cutout 방식에는 ‘Poodle’ 그림이 들어가지 않아서 ‘Poodle’ Class Activation 은 제대로 활성화되지 않는 모습입니다. 반면 CutMix 방식에서는 ‘Bernard’, ‘Poodle’ 각각의 Activation 이 잘 활성화되는 모습입니다. 이를 정리하면 다음과 같습니다.

효과-정리
그림4. 효과 정리

Mixup, Cutout이 한두 가지씩 한계를 갖는 반면, Cutmix는 이미지 전체 구역을 사용하며, 일부 부분만을 잘라내, 다른 이미지를 섞고 그의 비중에 맞게 Label을 조정하는 방식입니다.

4. 실험 결과

다음은 이렇게 제안한 방법의 실험 결과를 살펴보겠습니다.

4-1. Imagenet Classification

먼저 Imagenet Classification 성능입니다.

imagenet-classification
그림5. Imagenet Classification 실험 결과

다른 Regularization 방식들과 비교했을 때 가장 높은 성능 개선폭을 보입니다.

4-2. CIFAR100

다음은 CIFAR100 성능입니다.

cifar100
그림6. Cifar100 실험 결과

다른 Regularization 방식들과 비교했을 때 가장 높은 성능 개선폭을 보입니다.

4-3. CIFAR10

다음은 CIFAR10 성능입니다.

cifar10
그림7. Cifar10 실험 결과

다른 Regularization 방식들과 비교했을 때 가장 높은 성능 개선폭을 보입니다.

4-4. Weakly Supervised Object Localization

다음은 Weakly Supervised Object Localization 성능입니다.

weakly-supervised-object-localization
그림8. Weakly Supervised Object Localization 실험 결과

다른 Regularization 방식들과 비교했을 때 가장 좋은 성능을 보입니다.

4-5. Transfer Learning of Pretrained Model

다음은 Transfer Learning of Pretrained Model 성능입니다.

transfer-learning-of-pretrained-model
그림9. Transfer Learning of Pretrained Model 실험 결과

Mixup, Cutout과 비교했을 때 모든 영역에서 성능이 오르고, 가장 좋은 성능을 보입니다.

4-6. Robustness

다음은 Adversarial Example에 대한 Robustness 성능입니다.

robustness
그림10. Robustness 실험 결과

Mixup, Cutout과 비교했을 때 성능이 크게 개선되는 모습입니다.

4-7. Uncertainty

다음은 OOD Test를 통한 Uncertainty 성능입니다.

uncertainty
그림11. Uncertainty 실험 결과

Mixup, Cutout과 비교했을 때 가장 좋은 성능을 보입니다.

5. 장단점

여기까지 CutMix의 방법과 실험 결과에 대해 살펴봤습니다. 이번에는 CutMix의 장단점을 정리해보겠습니다.

5-1. 장점

첫 번째 장점은 일반화 성능의 향상입니다. CutMix는 이미지의 일부를 잘라내고 다른 이미지와 결합함으로써 데이터의 다양성을 증가시킵니다. 이로 인해 모델은 더 나은 일반화 성능을 보일 수 있습니다.

두 번째 장점은 Robustness의 증가입니다. CutMix는 모델이 더 다양한 데이터 변형에 대해 학습하도록 돕습니다. 이는 모델이 노이즈나 작은 변화에 대해 더 강인하게 만들어줍니다.

세 번째 장점은 효율적인 학습을 만든다는 점입니다. CutMix는 더 적은 데이터로도 더 나은 성능을 달성할 수 있게 돕습니다. 이는 효율적인 학습과 더 빠른 수렴을 가능하게 합니다.

5-2. 단점

첫 번째 단점은 구현 복잡성 증가입니다. CutMix는 일반적인 데이터 증강 기법보다 구현이 복잡할 수 있습니다. 이로 인해 초기 설정과 튜닝이 더 어려울 수 있습니다.

두 번째 단점은 학습 시간의 증가입니다. CutMix는 학습 시간을 증가시킬 수 있습니다. 이는 추가적인 데이터 처리와 복잡한 증강 기법 때문입니다.

6. 의의

그럼에도 불구하고 CutMix는 여러 의의를 갖습니다. CutMix의 주요 의의는 이미지 분류 작업에서 모델의 일반화 성능을 향상시키는 것입니다. 이 방법은 모델이 더 다양한 데이터 변형과 노이즈에 대해 강인하게 만들어, 실제 세계의 다양한 시나리오에서 더 좋은 성능을 발휘할 수 있게 합니다. 또한, CutMix는 데이터 효율성을 향상시켜, 더 적은 데이터로도 더 나은 성능을 달성할 수 있게 돕습니다. 이러한 이유로, CutMix는 이미지 분류 작업에서 중요한 데이터 증강 기법 중 하나로 간주됩니다.

7. 마치며

CutMix는 이미지 분류와 같은 비전 태스크에서 데이터 증강의 새로운 지평을 열어준 기법 중 하나입니다. 기존의 Mixup과 Cutout 방식이 제공하는 방법론적 한계를 극복하며, 이미지의 특정 영역을 조작하는 독창적인 접근을 통해 모델의 일반화 성능을 크게 향상시켰습니다.

이번 글에서는 CutMix의 핵심 원리와 그 효과, 장단점에 대해 자세히 살펴보았습니다. 특히, 다양한 실험 결과를 통해 그 효과를 명확하게 확인할 수 있었습니다. CutMix는 단순히 이미지 레벨에서의 조작을 넘어, 모델이 데이터의 다양한 패턴과 컨텍스트를 효과적으로 학습할 수 있도록 도와주는 중요한 기법입니다.

데이터 증강은 딥러닝 모델의 성능을 향상시키는 데 있어 핵심적인 역할을 합니다. CutMix와 같은 창의적인 방법들이 계속해서 연구되고 발전함에 따라, 앞으로도 더욱 다양하고 효과적인 데이터 증강 기법들이 등장할 것으로 기대됩니다. 이러한 연구의 발전에 기여하고자 하는 연구자나 엔지니어들에게 이 글이 도움이 되었기를 바랍니다.

Series Navigation<< [19′ ICML] Manifold Mixup : Better Representations by Interpolating Hidden States[20′ ICLR] AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY >>
0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
Scroll to Top