Language Model 딥러닝 논문 리뷰 - Transformer부터 ChatGPT까지

[17′ NIPS] Transformer : Attention Is All You Need

This entry is part 1 of 13 in the series Language Model

Transformer 논문의 핵심 내용을 살펴봅니다. Transformer의 구조, Self Attention의 힘, 그리고 실제 실험 결과를 소개합니다. Transformer의 장단점과 중요성도 함께 알아봅니다.

[18′ OpenAI] GPT-1 : Improving Language Understanding by Generative Pre-Training

This entry is part 2 of 13 in the series Language Model

GPT-1 논문을 리뷰합니다. 기존 방법의 문제점, GPT-1의 구조, Pretraining과 Fine Tuning 방법, Pretraining이 효과적인 이유, 실험 결과 등을 분석하고 GPT-1의 장단점과 의의에 대해 생각해봅니다.

[19′ NAACL] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Language Model

This entry is part 3 of 13 in the series Language Model

BERT의 기본 구조, Pretraining과 Fine Tuning 과정, 그리고 다양한 NLP 작업에서의 성능을 상세히 살펴봅니다. BERT와 GPT-1의 차이점도 비교 분석하며, BERT의 장단점과 의의를 깊게 탐구합니다

[20′ NIPS] GPT-3 : Language Models are Few-Shot Learners

Language Model

This entry is part 4 of 13 in the series Language Model

기존 언어 모델의 한계와 그 해결책, GPT-3의 혁신적인 특성, 다양한 실험 결과, 장단점과 사회적 파장까지 살펴봅니다. 특히 few shot 성능과 새로운 실험 결과들이 어떻게 이 모델을 다양한 방면에서 활용할 수 있는지에 대한 통찰을 제공합니다.

[22′ NIPS] InstructGPT : Training language models to follow instructions with human feedback

Language Model

This entry is part 5 of 13 in the series Language Model

InstructGPT 논문 리뷰: 언어 모델의 한계와 가능성을 탐구합니다. 대규모 언어 모델의 문제점과 InstructGPT의 해결 방안, 그리고 실험 결과까지 깊이 있게 알아봅니다. 사용자 친화적인 AI의 미래를 함께 고민해 봅시다.

[21′ ICLR] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

Language Model

This entry is part 6 of 13 in the series Language Model

PEFT의 대표적인 방법론인 LoRA 논문을 리뷰합니다. Low Rank Decomposition이 무엇인지, 왜 LoRA는 Fine Tuning 대비 적은 파라미터를 학습하는지에 대해 그림을 통해 쉽게 설명합니다.

[21′ IJCNLP] Prefix-Tuning: Optimizing Continuous Prompts for Generation

Language Model

This entry is part 7 of 13 in the series Language Model

효율적으로 LLM을 문제에 맞게 학습하는 방법중 하나인 Prefix Tuning 논문을 쉽게 설명합니다. 기존 Fine Tuning, Adapter 등의 PEFT 방식과 Prefix Tuning은 무엇이 다른지 그림을 통해 쉽게 이해해봅니다.

[22′ NeurIPS] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Language Model

This entry is part 8 of 13 in the series Language Model

Chain of Thought 방식을 통해 대규모 언어 모델이 복잡한 추론 문제를 해결하는 새로운 접근법을 탐구합니다. 이 방식이 산수, 상식, 기호 추론 등에서 어떻게 성능을 향상시키는지, 그리고 이러한 접근법이 모델의 추론 과정을 투명하게 만들어 인공지능 시스템의 신뢰성을 높이는 방법을 살펴봅니다.

[20′ NeurIPS] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Language Model

This entry is part 9 of 13 in the series Language Model

Retrieval-Augmented Generation (RAG) 모델은 외부 지식을 동적으로 검색하여 복잡한 질문에 대한 정확하고 상세한 답변을 생성합니다. 이 글에서는 RAG가 기존 언어 모델의 한계를 어떻게 극복하고, NLP 분야에서 지식 기반 추론과 답변 생성의 새로운 기준을 설정하는지 탐구합니다.

[23′ ICLR] Self Consistence : SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS

Language Model

This entry is part 10 of 13 in the series Language Model

Chain of Thought Prompting의 한계를 극복하고, 모델이 여러 추론 경로를 통해 일관된 최적의 답변을 도출하는 방법을 제시합니다. 실험 결과는 이 방식이 산수, 상식, 기호 추론 등에서 기존 방법보다 우수한 성능을 보임을 입증합니다. Self Consistency는 NLP 모델의 정확도와 신뢰성을 향상시키는 동시에, 계산 비용의 증가라는 도전과제를 제시합니다.