- [’23 ICLR] PatchTST : A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS
- [’24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING
1. 들어가며
시계열 데이터는 금융, 기상 예측, 에너지 소비 분석 등 다양한 분야에서 중요한 역할을 합니다. 최근에는 Transformer 모델이 자연어 처리(NLP)에서 큰 성공을 거두면서, 이를 시계열 데이터에도 적용하려는 연구가 활발히 이루어지고 있습니다. 기존 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory) 모델이 장기 의존성 학습에서 한계를 보였던 것과 달리, Transformer 모델은 self-attention을 통해 긴 시퀀스의 정보를 효과적으로 학습할 수 있어 시계열 예측 문제에서도 주목받고 있습니다. 하지만 Transformer 모델이 NLP에서는 강력한 성능을 보였음에도 불구하고, 시계열 데이터에서는 몇 가지 구조적인 문제로 인해 최적의 성능을 내지 못하는 경우가 많았습니다.
기존 Transformer 기반 시계열 모델들이 가진 가장 큰 문제점 중 하나는 입력 길이가 길어질수록 self-attention 연산량이 기하급수적으로 증가한다는 점입니다. 이는 시계열 데이터에서 장기 예측을 수행하는 경우 연산 비용을 급격히 증가시키고, 실제 모델을 운영하는 데 있어 큰 부담이 될 수 있습니다. 또한, 기존 모델들은 시간 단위로 데이터를 처리하기 때문에 다변량(multivariate) 시계열 데이터에서 변수 간의 관계를 명확하게 학습하지 못하는 한계가 있었습니다. 시계열 데이터에서는 변수 간 상호작용이 중요한 경우가 많지만, 기존 Transformer 모델들은 개별 시점(time step)에 대한 정보 처리를 중심으로 설계되어 있어, 변수 간의 독립적인 특성과 상호작용을 효과적으로 반영하지 못했습니다.
이러한 문제를 해결하기 위해 논문에서는 ITransformer를 제안하였습니다. ITransformer는 기존 Transformer 모델과 달리 변수를 하나의 토큰으로 처리하는 방식을 도입하여 연산량 증가 문제를 해결하고, 변수 간 관계 학습을 위한 self-attention 구조를 적용하여 다변량 시계열 예측 성능을 개선하였습니다. 또한, 각 변수별로 독립적인 FFN(Feed-Forward Network)을 적용하여 변수 간의 관계 학습과 개별 변수의 시간적 패턴 학습을 분리하여 더욱 효과적인 예측이 가능하도록 설계되었습니다.
이번 포스팅에서는 기존 Transformer 기반 시계열 예측 모델들의 한계를 살펴보고, ITransformer가 이를 어떻게 해결하는지 자세히 분석해보겠습니다. 또한, 실험을 통해 ITransformer가 실제로 기존 모델보다 얼마나 우수한 성능을 보이는지 평가하고, 마지막으로 모델의 강점과 한계를 정리하겠습니다.
2. 기존 방법의 한계
Transformer 기반 시계열 예측 모델들은 자연어 처리(NLP)에서의 성공을 바탕으로 시계열 데이터에도 적용되었지만, 본래의 구조적 한계로 인해 최적의 성능을 내지 못하는 경우가 많았습니다. 특히, 입력 길이가 길어질수록 연산량이 급격하게 증가하며, 다변량 시계열(multivariate time series)의 변수 간 관계를 제대로 학습하지 못하는 문제가 존재합니다. 이러한 문제들을 하나씩 살펴보겠습니다.
2.1 입력 길이에 따라 연산량이 기하급수적으로 증가
Transformer 모델의 핵심 연산인 self-attention은 입력 데이터의 길이에 따라 연산량이 O(N^2) 만큼 증가하는 특성을 가집니다. 즉, 입력 데이터가 길어질수록 연산 비용이 기하급수적으로 증가하여, 장기 예측이 필요한 시계열 데이터에서는 매우 비효율적으로 작동할 수 있습니다.
시계열 데이터는 일반적으로 고정된 길이의 입력을 사용하지만, 보다 긴 시간 범위를 고려해야 할 경우 Transformer의 연산량이 급격히 증가하는 문제가 발생합니다. 예를 들어, 입력 길이가 10배 증가하면 self-attention 연산량은 100배 증가하게 됩니다. 이는 대규모 시계열 데이터를 처리할 때 학습 속도를 저하시킬 뿐만 아니라, 메모리 사용량 증가로 인해 GPU 자원의 한계를 초래할 수 있습니다.
이러한 문제를 해결하기 위해 기존 연구들은 다양한 기법을 제안하였습니다. 대표적으로 Informer는 sparse self-attention을 활용하여 계산량을 줄이고, Autoformer는 auto-correlation을 이용하여 긴 시간 범위의 패턴을 더 효과적으로 학습하는 방법을 도입하였습니다. 하지만 이러한 방법들도 본질적으로 self-attention을 기반으로 하고 있기 때문에, 입력 길이가 매우 길어지면 연산량 문제를 완전히 해결하지는 못했습니다.
2.2 변수 간 관계를 제대로 학습하지 못함
Transformer 기반 시계열 모델들은 보통 각 시간 단위(time step)에서 모든 변수를 하나의 벡터로 결합하여 학습합니다. 즉, 특정 시간 t에서의 모든 변수(feature)들이 하나의 입력 토큰으로 변환되며, self-attention을 통해 시계열 내 패턴을 학습하게 됩니다. 이러한 방식은 단변량 시계열(univariate time series)에서는 효과적일 수 있지만, 다변량 시계열(multivariate time series)에서는 변수 간 관계를 충분히 반영하지 못하는 한계가 있습니다.
시계열 데이터에서는 변수 간 상호작용이 중요한 경우가 많습니다. 예를 들어, 날씨 데이터에서 기온, 습도, 기압 등의 변수는 서로 강한 상관관계를 가지며, 주식 시장 데이터에서도 특정 주식의 가격 변동이 다른 종목의 움직임에 영향을 미칠 수 있습니다. 하지만 기존 Transformer 기반 모델들은 이러한 변수 간 관계를 명시적으로 학습하는 구조를 갖고 있지 않기 때문에, 다변량 시계열 예측에서 충분한 성능을 내지 못하는 경우가 많았습니다.
이 문제를 해결하기 위해 일부 연구에서는 각 변수별로 개별적인 Transformer를 학습하거나, 변수 간 attention을 추가하는 방법을 제안하기도 했습니다. 하지만 이러한 방식은 연산량 증가 문제를 더욱 심화시키는 결과를 초래할 수 있으며, 모델이 모든 변수 간 관계를 효과적으로 학습할 수 있도록 보장하지는 못했습니다.
3. 제안 방법 : ITransformer
ITransformer는 기존 Transformer 기반 시계열 예측 모델이 가진 문제점을 해결하기 위해 제안되었습니다. 기존 모델들은 입력 데이터를 시간 단위로 나누어 처리하기 때문에 입력 길이가 증가할수록 연산량이 급격히 늘어나고, 다변량 시계열 데이터에서 변수 간의 관계를 명확하게 학습하지 못하는 한계를 가지고 있었습니다. 이를 해결하기 위해 ITransformer는 각 변수를 하나의 토큰으로 변환하여 입력 데이터를 구성하고, 변수 간 관계를 학습할 수 있도록 self-attention을 적용하며, 변수별 시간적 패턴을 학습할 수 있도록 별도의 피드포워드 네트워크(FFN)를 도입하였습니다.
![['24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING 1 그림1. ITransformer Architecture](https://ffighting.net/wp-content/uploads/2025/03/image-7.png)
3.1 각 변수를 하나의 토큰으로 변환
기존 Transformer 모델들은 시계열 데이터를 입력할 때 특정 시간 단위에서 여러 변수를 하나의 벡터로 결합하여 처리하였습니다. 이러한 방식은 변수 간의 독립적인 관계를 명확하게 반영하지 못하며, 다변량 시계열 예측에서 성능을 저하시킬 수 있는 요인이 되었습니다. ITransformer는 이러한 문제를 해결하기 위해 개별 변수를 하나의 독립적인 토큰으로 변환하는 방식을 도입하였습니다. 즉, 기존 Transformer가 시간 축을 기준으로 데이터를 입력하였다면, ITransformer는 변수 축을 기준으로 데이터를 변환하여 학습하는 방식으로 구성되었습니다. 이를 통해 모델이 각 변수의 특성을 더 효과적으로 학습할 수 있으며, 다변량 데이터에서 변수 간 상관관계를 명확하게 반영할 수 있도록 설계되었습니다.
이러한 접근 방식은 기존 모델이 가지는 연산량 증가 문제를 완화하는 데에도 기여합니다. 기존 Transformer 모델에서는 입력 길이가 길어질수록 self-attention 연산량이 기하급수적으로 증가하는 문제가 있었지만, ITransformer는 self-attention을 시간 축이 아닌 변수 축을 기준으로 수행하기 때문에 입력 길이가 증가하더라도 연산량이 크게 증가하지 않습니다. 이를 통해 장기 시계열 예측에서도 보다 효율적인 연산이 가능해집니다.
3.2 변수 간 관계 학습을 위한 self-attention
Transformer 모델의 핵심은 self-attention을 활용하여 입력 데이터 내에서 중요한 패턴을 학습하는 것입니다. 그러나 기존 Transformer 기반 시계열 모델들은 self-attention을 시간 단위로 적용하였기 때문에, 변수 간의 관계를 효과적으로 학습하는 데 어려움이 있었습니다. 예를 들어, 기온과 습도, 주가와 거래량처럼 상관관계가 있는 변수들이 존재하는 경우, 기존 모델은 이 관계를 명시적으로 학습하지 못하여 예측 성능이 제한적이었습니다.
ITransformer는 self-attention 구조를 수정하여 변수 간의 관계를 보다 명확하게 학습할 수 있도록 설계되었습니다. 기존의 self-attention이 시간에 따른 관계를 학습하는 데 초점을 맞추었다면, ITransformer는 변수 간의 관계를 학습하는 self-attention을 추가적으로 적용하였습니다. 이를 통해 모델이 개별 변수 간의 의존성을 보다 효과적으로 학습할 수 있으며, 변수 간의 상호작용을 반영한 예측이 가능해집니다. 기존 Transformer 모델들이 모든 변수를 하나의 벡터로 변환하여 학습하는 것과 달리, ITransformer는 변수별 self-attention을 수행하여 보다 정교한 관계 학습이 가능합니다.
3.3 변수별 시간적 패턴 학습을 위한 피드포워드 네트워크(FFN)
Transformer 구조에서는 self-attention을 거친 후 피드포워드 네트워크(FFN)를 적용하여 최종 출력을 생성합니다. 기존 Transformer 모델들은 이 FFN을 통해 시간 축을 따라 학습하는 방식이었지만, ITransformer는 self-attention을 통해 변수 간의 관계를 학습한 후, 개별 변수의 시간적 패턴을 학습하는 구조를 도입하였습니다.
ITransformer에서는 self-attention을 통해 변수 간 관계를 학습한 후, 각 변수별로 독립적인 FFN을 적용하여 변수의 시간적 패턴을 모델링합니다. 이를 통해 모델이 변수 간 관계를 학습한 후에도 개별 변수의 변동성을 효과적으로 반영할 수 있으며, 특정 변수의 패턴이 다른 변수의 학습에 불필요하게 영향을 미치는 문제를 방지할 수 있습니다. 또한, 개별 변수의 패턴을 독립적으로 학습하기 때문에 데이터의 일반화 성능을 높이는 데에도 기여할 수 있습니다.
3.4 쉽게 이해하기
여기까지가 ITransformer의 핵심 아이디어인데요. 좀 더 이해하기 쉽게 정리해보겠습니다. 먼저, 기존 Transformer를 사용한 시계열 데이터 연산 과정은 아래 그림과 같습니다.
![['24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING 2 그림2. 기존 Transformer 연산 과정](https://ffighting.net/wp-content/uploads/2025/03/image-10-1024x384.png)
먼저 입력 데이터를 Token화 하는 과정이 진행되는데요. 이 과정은 보통 d개의 데이터씩을 묶어서 Linear Transform를 통해 변환하는 작업을 거칩니다. 이 과정에서 여러개의 (위 그림에서는 2개) 서로 다른 특성의 데이터가 d개씩 묶여 하나의 벡터로 변환되게 되죠. 위 그림에서는 (2,d) 데이터가 (D,) 형태로 변환됩니다. 이렇게 변환된 N개의 D 사이즈 벡터는 Self Attention 연산을 거치게 되는데요. 이때 시간축에 따라 (즉 N개의 관계를) 관계를 학습하게 됩니다. 이후 FFN은 N개의 데이터를 각각 연산하게 되죠. 이렇게 연산했을때의 문제점은 위에서 기술한 내용과 같습니다.
![['24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING 3 그림3. ITransformer 연산 과정](https://ffighting.net/wp-content/uploads/2025/03/image-11-1024x360.png)
이에 ITransformer에서 제안하는 방법은 위 그림과 같은데요. 먼저 각 데이터 (위에서는 2가지)를 하나의 토큰으로 묶어줍니다. 즉 Patch 화 하지 않는다는것이죠. 각 데이터를 하나로 묶어 Token화 해주고, 이렇게 나온 각 데이터 Feature를 Self Attention 연산해줍니다. 이렇게 되면 결정적으로 달라진게, 기존에는 시간축에 따른 Self Attention 연산이었는데, 이제는 각 데이터 (변수) 에 따른 특성을 학습하는 Self Attention 연산이 되게 됩니다. 따라서 시간축 데이터 개수 증가에 따른 연산량의 영향을 안받게 되는것이죠. 이후 FFN는 마찬가지로 변수별로 적용해줍니다. 이렇게 적용해주면 기존 FFN과 달리 시간에 따른 변수별 패턴을 처리할 수 있게 됩니다.
3.5 ITransformer의 효과
ITransformer는 기존 Transformer 기반 시계열 예측 모델들이 가진 문제점을 해결하며, 다변량 시계열 데이터에서 더욱 효과적인 예측이 가능하도록 설계되었습니다. 기존 모델들은 입력 길이가 길어질수록 연산량이 기하급수적으로 증가하는 문제가 있었지만, ITransformer는 변수 축을 기준으로 self-attention을 수행하기 때문에 연산량 증가 문제를 효과적으로 해결할 수 있습니다. 기존 모델들은 변수 간 관계를 명확하게 학습하지 못했기 때문에 다변량 시계열 데이터에서 성능이 제한적이었지만, ITransformer는 변수를 독립적인 토큰으로 처리하고 변수 간 self-attention을 적용함으로써 변수 간의 관계를 명확하게 학습할 수 있도록 설계되었습니다. 기존 Transformer 모델들은 self-attention과 FFN을 결합하여 학습하면서 변수 간 관계 학습과 개별 변수의 패턴 학습을 하나의 과정에서 수행했지만, ITransformer는 이를 분리하여 진행함으로써 보다 효과적인 학습이 가능해졌습니다.
ITransformer는 기존 Transformer 모델의 구조를 유지하면서도 시계열 데이터의 특성을 보다 잘 반영할 수 있도록 설계된 모델입니다. 기존 Transformer 모델들이 가진 구조적인 한계를 해결하면서, 다변량 시계열 데이터에서도 효과적으로 적용될 수 있도록 설계되었습니다. 다음 장에서는 실험을 통해 ITransformer가 실제로 기존 방법들보다 얼마나 우수한 성능을 보이는지 살펴보겠습니다.
4. 실험 결과
4.1 FORECASTING RESULTS
ITransformer의 성능을 평가하기 위해 기존의 Transformer 기반 시계열 예측 모델들과 비교 실험을 수행했습니다. 비교 대상 모델로는 Autoformer, FEDformer, Stationary, Crossformer, PatchTST, DLinear, TiDE, SCINet, TimesNet 등의 대표적인 딥러닝 기반 예측 모델들이 포함되었습니다.
![['24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING 4 그림4. Forecasting 실험 결과](https://ffighting.net/wp-content/uploads/2025/03/image-8.png)
실험 결과는 Table 1에 정리되어 있으며, ITransformer는 여러 데이터셋에서 기존 모델 대비 우수한 성능을 보였습니다. 특히 다변량 시계열 예측(multivariate forecasting)에서 기존 Transformer 기반 모델들이 가지는 한계를 극복하는 모습을 보였습니다. 기존 Transformer 기반 모델들은 입력 길이가 증가할수록 예측 성능이 하락하는 경향을 보이는데, ITransformer는 이러한 문제를 완화하면서도 더 나은 예측 성능을 기록했습니다.
4.2 ITRANSFORMERS GENERALITY
ITransformer의 일반화를 평가하기 위해, 다양한 Transformer 변형 모델들에 적용하여 성능을 측정했습니다. Reformer, Informer, Flowformer, Flashformer 등의 모델을 대상으로 ITransformer 프레임워크를 적용한 결과, 모든 모델에서 평균적으로 성능이 향상되는 것을 확인할 수 있었습니다.
![['24 ICLR] ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING 5 그림5. Generality 실험 결과](https://ffighting.net/wp-content/uploads/2025/03/image-9.png)
Table 2에서 볼 수 있듯이, 기존 Transformer 를 사용한 모델들에 Inverse 방식만 적용해도 모두 성능이 개선되는 모습입니다. 이는 기존 Transformer 모델이 다변량 시계열 데이터를 다룰 때 올바르게 활용되지 못했던 점을 시사하며, ITransformer의 구조가 이를 개선하는 데 효과적이라는 것을 보여줍니다.
ITransformer는 Self-Attention을 변수 차원에서 적용하여 입력 차원이 증가할 때 발생하는 연산량 증가 문제를 해결할 뿐만 아니라, 변수 간 관계를 보다 효과적으로 학습할 수 있도록 설계되었습니다. 이로 인해 기존 Transformer 모델들이 다변량 시계열 데이터를 다룰 때 직면했던 문제를 극복하고, 보다 안정적인 성능을 제공할 수 있음을 실험을 통해 확인할 수 있었습니다.
5. 마치며
이번 포스팅에서는 ITransformer가 기존 Transformer 기반 시계열 예측 모델들이 가진 한계를 어떻게 극복하는지 살펴보았습니다. 기존 Transformer 모델들은 입력 길이가 길어질수록 연산량이 기하급수적으로 증가하고, 다변량 시계열 데이터에서 변수 간 관계를 효과적으로 학습하지 못하는 문제가 있었습니다. 이러한 문제를 해결하기 위해 ITransformer는 기존의 시간 단위 토큰화 방식이 아닌 변수 단위 토큰화 방식을 도입하여 연산량을 줄이고, 변수 간 상호작용을 학습할 수 있도록 self-attention 구조를 개선하였습니다. 또한, 변수 간 관계 학습과 개별 변수의 시간적 패턴 학습을 분리하여 보다 정교한 시계열 예측이 가능하도록 설계되었습니다.
실험 결과를 통해 ITransformer가 기존 Transformer 기반 모델들보다 더 나은 예측 성능을 보이며, 다변량 시계열 예측에서 특히 강력한 성능을 발휘한다는 것을 확인할 수 있었습니다. ITransformer는 다양한 시계열 예측 데이터셋에서 기존 Transformer 기반 모델들과 비교하여 뛰어난 성능을 보였으며, 여러 Transformer 변형 모델들에 적용했을 때도 일관된 성능 향상을 나타냈습니다. 이는 기존 Transformer 모델들이 다변량 시계열 데이터에서 변수 간 관계를 충분히 활용하지 못했던 문제를 해결하는 데 있어 ITransformer가 효과적인 대안이 될 수 있음을 시사합니다.
ITransformer의 가장 큰 장점은 기존 Transformer 모델의 구조를 유지하면서도 입력 데이터의 처리 방식을 최적화하여 연산량을 줄이고, 변수 간 관계를 효과적으로 학습할 수 있도록 개선했다는 점입니다. 이러한 접근 방식은 기존의 Transformer 모델들과도 쉽게 결합될 수 있어, 앞으로 Transformer 기반 시계열 예측 모델 연구에 있어 중요한 방향성을 제시할 것으로 보입니다.
하지만 ITransformer에도 여전히 해결해야 할 과제들이 남아 있습니다. 예를 들어, 변수 간 관계를 학습하는 self-attention 구조가 모든 데이터셋에서 최적의 성능을 보장하는 것은 아니며, 특정 데이터셋에서는 기존 방식보다 성능 향상이 크지 않을 수도 있습니다. 따라서 앞으로의 연구에서는 이러한 부분을 더욱 정교하게 조정할 수 있는 방법을 고민해야 할 것입니다. 또한, ITransformer의 장점을 극대화할 수 있도록 하이퍼파라미터 최적화 및 다양한 데이터셋에서의 실험이 추가적으로 필요할 것으로 보입니다.