[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰

This entry is part 6 of 22 in the series Incremental Learning

내용 요약

LwF(Learning-Without-Forgetting) 방식의 Incremental Learning 방법론을 제안합니다. Cross Entropy Loss와 Softmax 출력층에 Distillation Loss를 적용했습니다.

1. 들어가며

이번 글에서는 PAML 2017에 발표된 Learning Without Forgetting (LwF) 논문을 리뷰합니다. 이 논문은 LwF라고 불리며, 이번 글에서도 LwF라고 지칭하겠습니다.

전체-흐름-속에서-보기
그림1. Incremental Learning 전체 흐름

Incremental Learning을 방법론에 따라 크게 구분하면 위의 그림과 같이 구분할 수 있습니다.

  • Regularization : 이전 task에서 학습한 네트워크의 파라미터가 최대한 변하지 않으면서 새로운 task를 학습하도록 유도
  • Distillation : 이전 task에서 학습한 파라미터를 새로운 task를 위한 네트워크에 distillation
  • Distillation + Memory : 이전 task의 데이터를 소량 메모리로 두고 새로운 task학습 때 활용
  • Distillation + Memory + Bias correction : 새로운 task에 대한 bias를 주요 문제로 보고, 이에 대한 개선에 집중
  • Distillation + Memory + Dynamic structure : task에 따라 가변적으로 적용할 수 있는 네트워크 구조를 사용
  • Distillation + Memory + Generative model : 이전 task의 데이터를 generative model을 사용하여 replay 하는 방식을 사용
  • Dynamic structure : Pruning / Masking 등을 사용하여 task별로 사용할 파라미터 또는 네트워크 등을 정해줌

LwF는 Distillation에 해당하는 방법 중 하나입니다.

2. 제안 방법

바로 제안하는 방법을 살펴보겠습니다.

2-1. Architecture

먼저 architecture입니다.

image 1
그림2. LwF Architecture

LwF의 방식인 e번 그림을 보겠습니다.
Task가 늘어남에 따라 마지막 층의 개수가 늘어나는 모습을 볼 수 있습니다. 즉 task마다 output을 내는 구조입니다.

2-2. Loss

다음으로 loss function을 보겠습니다.
Loss function은 새로운 task의 class와 기존 task의 class로 나눠서 설정합니다. 먼저 새로운 클래스에 대해서는 classification을 잘할 수 있도록 cross entropy loss를 적용합니다.

cross-entropy-loss
그림3. cross entropy loss

하지만 새로운 task에 대해서만 Cross Entropy Loss로 학습하면 기존 지식은 점차 잊혀지게 되겠죠? 따라서 LFL에서 사용한 Distillation Loss를 활용합니다. LwF에서의 Distillation Loss는 다음과 같습니다.

distillation-loss
그림4. distillation loss

이때 y’값은 각 모델의 softmax 출력 값입니다.

softmax-출력값
그림5. softmax 출력값

이 부분이 LFL Distillation Loss와의 차이점입니다. LFL에서는 마지막 Feature에 대해 Distillation Loss를 적용해 주었는데요. LwF에서는 Softmax 출력값에 대해 Distillation Loss를 적용하고 있습니다. 이를 통해 Softmax 출력값에 대한 Distillation Loss가 더 효과적임을 알 수 있습니다.

Series Navigation<< [PNAS 2017] Overcoming catastrophic forgetting in neural networks (EWC) 핵심 리뷰[NIPS 2018] Memory Replay GANs: learning to generate images from new categories without forgetting(MeRGAN) 핵심 리뷰 >>
0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
Scroll to Top