[’23 ICLR] PatchTST : A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS
PatchTST는 Transformer 기반 시계열 예측 모델의 한계를 해결하기 위해 patching 기법과 channel-independent self-attention을 도입한 모델입니다. 시계열 데이터를 일정한 크기의 패치(patch) 단위로 변환하여 입력으로 사용함으로써 지역 정보를 유지하고 계산 복잡도를 줄이는 효과를 제공합니다. 또한, 각 변수(채널)별로 독립적인 self-attention을 적용하여 다변량 시계열 데이터에서 변수 간 불필요한 상호작용을 줄이고 학습 효율성을 높였습니다.