[22′ NeurIPS] LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks

This entry is part 12 of 13 in the series Language Model

1. 들어가며

인공지능과 머신러닝의 발전은 우리가 세상을 이해하고 문제를 해결하는 방식에 혁명을 가져왔습니다. 특히, Large Language Models(LLM)의 등장은 자연어 처리 분야뿐만 아니라, 다양한 Non-Language Task에 대한 접근 방식에도 새로운 지평을 열었습니다. 2022년 NeurIPS에 발표된 “LIFT” 논문은 이러한 발전의 최전선에 서 있습니다. 이 논문은 기존의 LLM을 활용한 접근 방식이 가진 한계를 극복하고, Non-Language Task를 언어 문제로 변환하여 해결하는 혁신적인 방법을 제안합니다.

이번 글에서는 LIFT 논문의 핵심 아이디어와 제안 방법, 그리고 이 방법이 기존 방식과 어떻게 다른지에 대해 살펴보겠습니다. 또한, 이 연구가 어떻게 Non-Language Task의 해결 방식에 새로운 패러다임을 제시하는지, 그리고 이러한 접근 방식이 앞으로 우리가 문제를 해결하는 방식에 어떤 영향을 미칠 수 있는지에 대해 탐구해보고자 합니다.

LIFT 논문은 Pretrained LLM의 강력한 표현력을 Non-Language Task에 직접 적용함으로써, 이러한 Task를 해결하기 위한 새로운 방법론을 개발했습니다. 이 방법론은 Non-Language 데이터를 LLM이 이해할 수 있는 언어 형태로 변환하고, 이를 통해 문제를 해결하는 과정을 자연스럽게 만듭니다. 이러한 접근 방식은 LLM의 활용 가능성을 크게 확장하며, 다양한 분야에서의 적용을 가능하게 합니다.

이번 포스팅을 통해, LIFT 논문이 제시하는 방법론의 의미와 잠재력을 함께 탐색해보고자 합니다. LLM을 활용한 Non-Language Task 해결 방식의 혁신적인 접근이 우리에게 어떤 새로운 가능성을 열어줄 수 있는지, 그리고 이러한 가능성이 실제 문제 해결에 어떻게 적용될 수 있는지에 대한 통찰을 공유하고자 합니다.

2. 기존 방법의 문제점

LLM이 각광을 받으며 이미 LIFT 이전에도 LLM을 사용하여 Non Language Task를 풀려는 시도들이 존재했습니다. 이러한 시도들은 공통적으로 Pretrained LLM의 ‘표현력’을 활용하려고 했는데요. 입력 데이터에 대해 LLM이 변환한 표현인 Feature를 바탕으로 해당 Task를 풀려고 하는 것이죠.

그림1. 기존 방법의 Classification 방법 [1]
그림1. 기존 방법의 Classification 방법 [1]

위 그림이 이러한 시도들의 대표적인 예시를 보여주고 있는데요. 풀려고 하는 Task는 Classification 문제입니다. 이제 입력으로는 문장이 들어가고요. Pretrained LLM은 이 입력 문장을 Embedding으로 변환해줍니다. 이렇게 변환된 Embedding은 최종적으로 새로운 NN Layer에서 해당 Task의 Class로 변환하도록 학습해주는 방법이죠.

이러한 시도들은 LLM의 표현력을 사용하여 Non Language Task를 시도했다는 중요한 의의가 있습니다. 하지만 왠지 그 방법이 자연스럽게 느껴지지는 않는데요. LLM이 새로운 Task를 풀었다기 보다는, ‘도움을 주었다.’ 는 표현이 더 적절하게 느껴집니다. 이렇게 Non Language Task에 대해 LLM이 단지 ‘도움을 주는’ 정도를 넘어, 완전하게 LLM 스스로 문제를 풀 수는 없을까요?

3. 제안 방법

3-1. Training & Inference

LIFT 저자들은 이렇게 LLM만으로 Non Language Task를 푸는 방법을 제안합니다. 어떻게 보면 이전 방법들보다 더욱 직관적이고 간단한데요. Non Language Task를 Language 문제로 바꾸어 LLM의 방식대로 풀도록 만들어주는 겁니다.

그림2. LIFT 전체 흐름
그림2. LIFT 전체 흐름

위 그림은 LIFT의 동작 방법을 보여주고 있습니다. Tabular Data Classification 문제를 LLM으로 풀어야 한다고 가정해보겠습니다. 이때의 LLM은 표 형태의 데이터를 읽을 수 없다고 가정할게요. 그럼 표 형태의 데이터를 LLM이 읽을 수 있도록 문장으로 바꾸어주어야 하는데요. 위 그림의 Sentence Conversion 부분에 이 과정이 표현되어 있습니다. 표에는 각 컬럼의 이름과 그 값들이 들어있는데요. 이를 그대로 문장 형태로 변환해준 모습을 볼 수 있습니다. 이렇게 변환된 학습 데이터를 그대로 LLM에게 학습해줍니다. 위 예시에서는 sepal length, sepal width, petal length, petal width에 따라 어떠한 종류의 iris인지를 구분하도록 LLM을 학습해주는 모습을 볼 수 있습니다.

학습은 일반적인 LLM과 동일하게 Token Prediction 방식으로 Cross Entropy Loss를 학습해줍니다. 이 부분이 기존 방법들과의 결정적인 차이라고 볼 수 있겠는데요. 기존 방식은 Class 자체를 Softmax로 학습해주었는데요. LIFT에서는 LLM이 바로 Classification을 수행할 수 있도록 Class에 해당하는 Word 그 자체를 예측하도록 학습해줬습니다.

테스트 단계에서는 질문과 대답을 구성해주어야 하는데요. 표 형태의 Test Data에서 질문으로 들어가야 하는 sepal length, sepal width, petal length, petal width 정보만 문장으로 변환해줍니다. 그리고 최종 iris class 부분은 입력 Prompt에서 제외해줍니다. 이렇게 들어온 Prompt에 대해 LLM이 정답 Iris Class를 잘 대답하는지 검증하는 방식입니다.

3-2. LLMs

LIFT에서는 실험을 위해 두 가지 종류의 LLM을 사용했습니다. 하나는 GPTJ 이고, 다른 하나는 GPT3 입니다. GPT3는 openai API가 제공되었는데요, 따라서 GPT3는 API를 사용해 Fine Tuning을 진행해주었습니다. 반면 GPTJ는 따로 API가 제공되지 않았는데요. 따라서 LoRA를 사용하여 Fine Tuning해 주었습니다.

3-3. Datasets

실험은 총 세가지 종류의 데이터셋에 대해 진행했습니다.
첫 번째는 Tabular Dataset 입니다. 표 형태의 데이터셋을 사용하여 Classification을 수행하는 문제인데요. 실제 데이터셋과 합성 데이터셋을 모두 사용하여 실험했습니다.
두 번째는 Vision Dataset입니다. MNIST, f-MNIST 등 기존 다양한 Vision Dataset을 사용했습니다.
세 번째는 Regression Dataset입니다. 마찬가지로 실제 데이터와 합성 데이터셋 모두에 대해 실험을 진행했습니다.

3-4. Baselines

LIFT의 실험 결과는 Standard Learning 알고리즘들과 비교해보았는데요. Classification 문제의 경우 전통적인 방식인 Logistic Regression, Dicision Tree 를 포함한 다양한 ML 모델들과 비교했습니다. Regression 문제도 KNN, MLP, Random Forest 등 다양한 ML 모델들과 성능을 비교해보았습니다.

4. 실험 결과

이번 챕터에서는 다양한 문제에 대해 위에서 설명한 LIFT 방식과 Baseline Model 들의 성능을 비교해보겠습니다.

4-1. Standard ML tasks

제일 먼저 기본 Task부터 확인해봐야겠죠. Classification Task 실험 결과를 살펴보겠습니다.

그림3. Standard ML Task 성능 비교
그림3. Standard ML Task 성능 비교

위 표는 다양한 Classification Task에 대한 LIFT와 기존 ML 방법들의 성능을 비교한 그림입니다. 크게 세 가지 종류의 Dataset을 사용하고 있는데요.
가장 위쪽에서는 Synthetic Dataset에 대한 성능을 비교하고 있습니다. 많은 문제에서 GPT3를 사용한 LIFT의 성능이 가장 좋은 모습을 볼 수 있습니다.
두 번째로는 Tabular Dataset에 대한 성능을 비교하고 있는데요. SVM 모델이 가장 많은 문제에서 최고 성능을 보이고 있고, GPT3를 사용한 LIFT 방식도 종종 최고 성능을 보이는 모습을 볼 수 있습니다.

위 결과를 통해 우리는 다음과 같은 결론을 도출할 수 있습니다.
우선 GPT3를 사용한 LIFT 방법은 대부분의 문제에서 Baseline Model들과 비교할만한 성능을 보인다는 점입니다.
두 번째로는 입력 Feature 개수가 커지더라도 LIFT 모델은 큰 성능 하락 없이 좋은 성능을 보인다는 점입니다.
세 번째로 구분해야 하는 클래스 개수가 많아지면 LIFT 모델은 성능 하락을 보인다는 점입니다.

다음으로 Regression 실험 결과를 살펴보겠습니다. 우선 다양한 형태의 Synthetic Dataset에 대해 LIFT 모델이 얼마나 잘 근사하는지 시각적으로 살펴보겠습니다.

그림4. Synthetic Regression Approximation
그림4. Synthetic Regression Approximation

위 그림은 다양한 형태의 Loss Function에 대해 LIFT 모델이 예측한 모습을 시각화 한 그림입니다. 단순한 Linear 부터 복잡한 모양까지 제법 잘 근사하는 모습을 볼 수 있습니다.

그림5. Real Regression Task 성능
그림5. Real Regression Task 성능

위 표는 실제 Regression 문제에 대한 LIFT와 Baseline Model들에 대한 성능을 비교한 그림입니다. 표의 값은 RAE를 의미하는데요. 따라서 작을수록 좋은 성능을 의미합니다. Classification 문제와 마찬가지로 Baseline Model들에 필적하는 성능을 보여주는 모습입니다.

4-2. How many samples does LIFT need?

실제로 LIFT를 활용하고자 한다면 성능 다음으로 궁금한 내용은 무엇일까요? 저는 일단 LIFT 방식으로 학습하려면 데이터가 얼마나 많이 필요할지가 궁금한데요. 저자들은 이에 대한 실험도 수행했습니다.

그림6. 학습 데이터에 따른 성능 비교
그림6. 학습 데이터에 따른 성능 비교

위 그림은 학습에 사용한 데이터셋 개수에 따른 모델별 Classification, Regression 성능을 보여주고 있습니다. 위쪽은 Classification 결과이고 Accuracy 값을 측정했으므로 값이 클 수록 좋은 성능을 의미합니다. 아래쪽은 Regression 결과이고, RMSE로 측정했으므로 값이 작을수록 좋은 성능을 의미합니다.

위 결과를 보면 LIFT도 다른 Baseline Model들과 크게 다르지 않은 경향을 보여주고 있는데요. 따라서 이를 통해 LIFT도 다른 기존 모델들과 비슷한 수준의 데이터로 학습할 수 있음을 알 수 있습니다.

4-3. Does LIFT need large scale models pretrained on natural language data?

자연어가 아닌 코드 등 다른 형태의 데이터를 학습한 GPT를 사용한다면 LIFT의 성능은 어떻게 변할까요?

그림7. 사전학습 모델별 LIFT 성능
그림7. 사전학습 모델별 LIFT 성능

위 표는 이 질문에 대한 실험 결과를 보여주고 있는데요. GPT-J와 기타 다른 형태의 데이터를 학습한 모델들, 그리고 Random 파라미터의 GPT-J의 결과를 비교해보면 확실히 자연어로 학습한 GPT의 성능이 좋은 모습을 볼 수 있습니다.

4-4. Does LIFT benefit from incorporating feature namse?

Classification, Regression 등 기존 ML Task를 수행할 때 LLM을 활용하는 방법의 장점 중 하나는 각 인자의 의미를 모델에 녹여낼 수 있다는 것인데요. 기존 Tabular Data를 다루는 딥러닝 모델들은 각 인자가 무엇을 의미하는지 모르고 학습해야 했죠. 인자의 의미를 활용할 방법이 없었으니까요. 하지만 LIFT 방식을 사용한다면 입력 Prompt에 각 인자의 이름을 넣어 활용할 수 있습니다.

그림8. 인자 이름 변환 방법에 따른 성능 비교
그림8. 인자 이름 변환 방법에 따른 성능 비교

위 표는 다양한 데이터셋에 대한 여러 이름 활용 방법에 따른 성능을 비교하고 있는데요. 이름을 아얘 안쓴경우, 섞어서 사용한 경우에 비해 정확한 이름을 Prompt에 넣어줬을 때 가장 좋은 성능을 보이는 모습을 볼 수 있습니다.

5. 의의

“LIFT” 논문의 제안은 기존의 Non-Language Task를 해결하는 방식에 혁신적인 전환점을 제공합니다. 이 연구는 Pretrained Large Language Models(LLM)의 표현력을 단순히 활용하는 것을 넘어, Non-Language 데이터를 Language Task로 변환하여 LLM의 본질적인 능력을 최대한 활용하는 방법을 탐색합니다. 이 접근 방식의 핵심 의의는 다음과 같습니다.

첫 번째 의의는 Non-Language Task의 언어화 방법을 제안한 것입니다. LIFT는 Tabular Data, Vision Data, 심지어 Regression 문제까지도 언어 문제로 변환하여 해결함으로써, LLM의 적용 범위를 대폭 확장합니다. 이는 LLM이 가진 강력한 언어 이해 및 생성 능력을 다양한 데이터 유형과 문제에 적용할 수 있는 가능성을 열어줍니다.

두 번째 의의는 직관적인 문제 해결 방법을 보여준 것입니다. 문제를 언어화함으로써, 모델이 해결해야 할 Task가 더 직관적이고 이해하기 쉬워집니다. 이는 모델의 학습 효율성을 높이고, 더 복잡한 문제에 대한 해결책을 찾는 데 도움이 될 수 있습니다.

세 번째 의의는 LLM을 사용할때 있어서 Feature 이름 활용의 중요성을 증명한 것입니다. LIFT는 Feature 이름을 Prompt에 포함시킴으로써, 각 Feature가 가진 의미를 모델이 활용할 수 있게 합니다. 이는 기존의 딥러닝 모델이 갖지 못한, 데이터의 의미적 측면을 이해하고 활용하는 능력을 LLM에 부여합니다.

네 번째 의의는 LLM의 데이터 효율성을 증명한 것입니다. 실험 결과는 LIFT가 비교적 적은 양의 데이터로도 우수한 성능을 달성할 수 있음을 보여줍니다. 이는 LLM의 사전 학습된 지식을 활용하여, 새로운 Task에 대한 학습에 필요한 데이터 양을 줄일 수 있음을 시사합니다.

다섯번째 의의는 자연어 처리 기술의 범용성 확장을 보여준 것입니다. LIFT 연구는 LLM을 활용한 Non-Language Task 해결 방식이 자연어 처리 기술의 새로운 활용 영역을 제시합니다. 이는 LLM의 범용성과 적용 가능성을 더욱 확장하는 중요한 발전입니다.

“LIFT” 논문은 LLM을 활용한 새로운 방식의 Non-Language Task 해결 방안을 제시함으로써, AI 및 머신러닝 분야에 새로운 지평을 열었습니다. 이 연구는 향후 다양한 분야에서의 LLM 활용 방안과 그 가능성에 대한 논의를 촉진할 것으로 기대됩니다.

6. 한계

LIFT 논문이 제시하는 접근 방식은 비록 많은 잠재력을 지니고 있지만, 여전히 몇 가지 한계점을 가지고 있습니다.

첫 번째는 데이터 변환의 복잡성입니다. Non-Language Task를 Language Task로 변환하는 과정은 경우에 따라 복잡하고 어려울 수 있습니다. 특히, 고차원 데이터나 복잡한 구조를 가진 데이터를 효과적으로 언어화하는 방법을 찾는 것은 쉽지 않은 과제입니다.

두 번째는 모델의 일반화 능력입니다. LIFT 방식은 특정 Task에 대해 매우 효과적일 수 있지만, 모든 종류의 Non-Language Task에 대해 동일한 성능을 보장하기 어렵습니다. 특히, 일부 복잡한 문제나 특수한 데이터 유형에 대해서는 추가적인 연구와 개선이 필요할 수 있습니다.

세 번째는 계산 비용입니다. LIFT 방식은 Pretrained Large Language Models를 사용하기 때문에, 상대적으로 높은 계산 비용이 발생할 수 있습니다. 특히, 대규모 모델을 사용하는 경우, 학습과 추론 과정에서의 계산 비용은 실용적인 적용에 있어 중요한 고려 사항이 될 수 있습니다.

네 번째는 프롬프트 디자인에 따른 성능 차이입니다. LIFT 방식에서는 프롬프트 디자인이 모델 성능에 큰 영향을 미칩니다. 효과적인 프롬프트를 디자인하는 것은 쉽지 않으며, 잘못된 프롬프트는 모델의 성능을 저하시킬 수 있습니다. 따라서, 프롬프트 디자인에 대한 추가적인 연구와 개발이 필요합니다.

LIFT는 Non-Language Task를 해결하기 위한 새로운 방식을 제시하며 중요한 기여를 했지만, 이러한 한계점을 극복하기 위한 지속적인 연구와 개선이 필요합니다. 이러한 노력을 통해, LIFT 방식의 적용 범위를 확장하고, 그 효과를 극대화할 수 있을 것입니다.

7. 마치며

LIFT 논문 리뷰를 마무리하며, 이 연구가 제시하는 혁신적인 접근 방식이 Non-Language Task 해결에 있어 어떠한 새로운 지평을 열었는지 다시 한번 강조하고자 합니다. LLM의 표현력을 활용하여 Non-Language 데이터를 언어 문제로 변환하고 해결하는 LIFT의 방법론은, 기존의 접근 방식을 넘어서는 새로운 가능성을 제시합니다. 이는 LLM의 활용 범위를 대폭 확장하며, 다양한 분야에서의 적용 가능성을 열어줍니다.

이번 논문 리뷰를 통해, 우리는 LLM을 활용한 문제 해결 방식이 단순히 언어 처리에 국한되지 않고, 더 넓은 범위의 문제에 적용될 수 있음을 확인할 수 있었습니다. LIFT 방식은 특히, 데이터를 언어화하는 과정에서 발생하는 창의적인 해석과 변환을 통해, 모델이 데이터의 의미를 더 깊이 이해하고, 그에 따라 더 정확한 예측과 분석을 수행할 수 있게 합니다.

물론, LIFT 방식이 가지는 한계와 도전 과제도 분명 존재합니다. 데이터 변환의 복잡성, 모델의 일반화 능력, 계산 비용, 프롬프트 디자인의 중요성 등은 향후 연구에서 극복해야 할 과제입니다. 그럼에도 불구하고, 이 연구는 Non-Language Task를 해결하기 위한 새로운 방법론을 모색하는 데 있어 중요한 발판을 마련했습니다.

앞으로 “LIFT” 방식과 같은 혁신적인 접근 방식이 계속 발전하고, 다양한 분야에 적용되어 가면서, 우리는 더 많은 문제를 더 효과적으로 해결할 수 있는 방법을 발견할 것입니다. 이러한 연구와 발전이 우리 사회와 기술의 발전에 어떤 긍정적인 변화를 가져올지 기대해보며, LIFT 논문이 제시하는 새로운 패러다임이 앞으로의 연구와 실용화에 어떤 영감을 제공할지 주목해보는 것이 중요합니다.

8. 참고 자료

  1. Ronan Collobert and Jason Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning, pages 160–167, 2008.
  2. LIFT 논문
  3. GPT3 논문 리뷰
  4. LoRA 논문 리뷰
Series Navigation<< Prompt Engineering, PEFT, RAG – LLM이 외부 정보를 사용하는 세 가지 방법[23′ ICLR] LANGUAGE MODELS ARE REALISTIC TABULAR DATA GENERATORS >>
0 0 votes
Article Rating
Subscribe
Notify of
guest
2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Binance
Binance
3 days ago

Can you be more specific about the content of your article? After reading it, I still have some doubts. Hope you can help me.

2
0
Would love your thoughts, please comment.x
()
x
Scroll to Top