- Incremental Learning 설명 – 정의, 필요성, 데이터셋, 대표 논문
- [arxiv 2016] Less-forgetting Learning in Deep Neural Networks (LFL) 핵심 리뷰
- [NIPS 2017] Continual learning with deep generative replay (DGR) 핵심 정리
- [CVPR 2017] iCaRL: Incremental Classifier and Representation Learning 핵심 리뷰
- [PNAS 2017] Overcoming catastrophic forgetting in neural networks (EWC) 핵심 리뷰
- [PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰
- [NIPS 2018] Memory Replay GANs: learning to generate images from new categories without forgetting(MeRGAN) 핵심 리뷰
- [ECCV 2018] Piggyback: Adapting a single network to multiple tasks by learning to mask weights 핵심 리뷰
- [ECCV 2018] End-to-End Incremental Learning (EEIL) 핵심 리뷰
- [CVPR 2018] PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning
- [ECCV 2018] Memory Aware Synapses: Learning what (not) to forget (MAS) 핵심 리뷰
- [CVPR 2019] Learning to remember:A synaptic plasticity driven framework for continual learning (DGM) 핵심 리뷰
- [NIPS 2019] Compacting, Picking and Growing for Unforgetting Continual Learning (CPG) 핵심 리뷰
- [ICMR 2019] Increasingly packing multiple facial-informatics modules in a unified deep-learning model via lifelong learning (PAE) 핵심 리뷰
- [CVPR 2019] Learning a Unified Classifier Incrementally via Rebalancing (LUCIR) 핵심 리뷰
- [CVPR 2019] Learning without Memorizing (LwM) 핵심 리뷰
- [CVPR 2019] Large Scale Incremental Learning (BiC) 핵심 리뷰
- [CVPR 2020] Conditional Channel Gated Networks for Task-Aware Continual Learning (CCGN) 핵심 리뷰
- [CVPR 2020] Maintaining Discrimination and Fairness in Class Incremental Learning (WA) 핵심 리뷰
- [ECCV 2020] PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning 핵심 리뷰
- [WACV 2020] Class-incremental Learning via Deep Model Consolidation (DMC) 핵심 리뷰
- [CVPR 2021] DER: Dynamically Expandable Representation for Class Incremental Learning 핵심 리뷰
내용 요약
LwF(Learning-Without-Forgetting) 방식의 Incremental Learning 방법론을 제안합니다. Cross Entropy Loss와 Softmax 출력층에 Distillation Loss를 적용했습니다.
1. 들어가며
이번 글에서는 PAML 2017에 발표된 Learning Without Forgetting (LwF) 논문을 리뷰합니다. 이 논문은 LwF라고 불리며, 이번 글에서도 LwF라고 지칭하겠습니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 1 전체-흐름-속에서-보기](https://blog.kakaocdn.net/dn/dnX5NS/btrqyrFxqcF/A0VssIpCtnM5Kzj2LGXP51/img.png)
Incremental Learning을 방법론에 따라 크게 구분하면 위의 그림과 같이 구분할 수 있습니다.
- Regularization : 이전 task에서 학습한 네트워크의 파라미터가 최대한 변하지 않으면서 새로운 task를 학습하도록 유도
- Distillation : 이전 task에서 학습한 파라미터를 새로운 task를 위한 네트워크에 distillation
- Distillation + Memory : 이전 task의 데이터를 소량 메모리로 두고 새로운 task학습 때 활용
- Distillation + Memory + Bias correction : 새로운 task에 대한 bias를 주요 문제로 보고, 이에 대한 개선에 집중
- Distillation + Memory + Dynamic structure : task에 따라 가변적으로 적용할 수 있는 네트워크 구조를 사용
- Distillation + Memory + Generative model : 이전 task의 데이터를 generative model을 사용하여 replay 하는 방식을 사용
- Dynamic structure : Pruning / Masking 등을 사용하여 task별로 사용할 파라미터 또는 네트워크 등을 정해줌
LwF는 Distillation에 해당하는 방법 중 하나입니다.
2. 제안 방법
바로 제안하는 방법을 살펴보겠습니다.
2-1. Architecture
먼저 architecture입니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 2 image 1](https://ffighting.net/wp-content/uploads/2023/06/image-1-1024x607.png)
LwF의 방식인 e번 그림을 보겠습니다.
Task가 늘어남에 따라 마지막 층의 개수가 늘어나는 모습을 볼 수 있습니다. 즉 task마다 output을 내는 구조입니다.
2-2. Loss
다음으로 loss function을 보겠습니다.
Loss function은 새로운 task의 class와 기존 task의 class로 나눠서 설정합니다. 먼저 새로운 클래스에 대해서는 classification을 잘할 수 있도록 cross entropy loss를 적용합니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 3 cross-entropy-loss](https://blog.kakaocdn.net/dn/pKgvm/btroPeanoo2/0t8X3G7Jj7D3m3LuLvCXak/img.png)
하지만 새로운 task에 대해서만 Cross Entropy Loss로 학습하면 기존 지식은 점차 잊혀지게 되겠죠? 따라서 LFL에서 사용한 Distillation Loss를 활용합니다. LwF에서의 Distillation Loss는 다음과 같습니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 4 distillation-loss](https://blog.kakaocdn.net/dn/bRy3hc/btroPV1820U/KallkmZ2AhVvFG67SVlQYk/img.png)
이때 y’값은 각 모델의 softmax 출력 값입니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 5 softmax-출력값](https://blog.kakaocdn.net/dn/bQRxwz/btroPGjPSFE/U6qzBz9BwNwO0buFAZK9k0/img.png)
이 부분이 LFL Distillation Loss와의 차이점입니다. LFL에서는 마지막 Feature에 대해 Distillation Loss를 적용해 주었는데요. LwF에서는 Softmax 출력값에 대해 Distillation Loss를 적용하고 있습니다. 이를 통해 Softmax 출력값에 대한 Distillation Loss가 더 효과적임을 알 수 있습니다.
![[PAML 2017] Learning Without Forgetting (LwF) 핵심 리뷰 6 Aragon Headshot Jongyub Seok 26](https://ffighting.net/wp-content/uploads/2025/10/Aragon-Headshot-Jongyub-Seok-26.jpg)



![[CVPR 2020] Conditional Channel Gated Networks for Task-Aware Continual Learning (CCGN) 핵심 리뷰 14 Channel Gate Module](https://ffighting.net/wp-content/uploads/2023/06/image-18-1024x508.png)