[23′ Nature Article] Leveraging large language models for predictive chemistry

This entry is part 2 of 7 in the series Battery

1. 들어가며

최근 과학과 기술의 발전은 우리가 자연 세계를 이해하고, 그 지식을 활용하는 방식에 혁명적인 변화를 가져왔습니다. 특히, 인공지능과 머신러닝의 발전은 이러한 변화를 주도하고 있으며, Large Language Models(LLM)의 등장은 이 분야에서의 가능성을 더욱 확장시켰습니다. LLM은 주로 언어 기반의 작업에 초점을 맞추어 왔지만, 최근 연구들은 이러한 모델들이 언어 이외의 영역에서도 유용하게 활용될 수 있음을 보여주고 있습니다. 이러한 맥락에서, Nature에 발표된 논문은 LLM을 사용하여 분자식을 예측하는 새로운 접근 방식을 제시하며, 화학 분야에서의 AI 활용 가능성을 한층 더 넓혔습니다.

이 블로그 포스팅에서는 해당 논문의 핵심 아이디어와 실험 결과를 살펴보며, LLM이 어떻게 화학 문제 해결에 기여할 수 있는지, 그리고 이러한 접근 방식이 과학 연구에 어떤 새로운 기회를 제공할 수 있는지에 대해 탐구해보고자 합니다. 기존에 화학 문제를 해결하기 위해 사용되던 전통적인 머신러닝 방법들과는 달리, 이 논문에서 제안하는 LLM 기반 방법은 분자식을 자연어처럼 처리함으로써, 보다 직관적이고 효율적인 해결 방안을 제시합니다. 이러한 혁신적인 접근 방식은 분자 설계, 약물 발견, 재료 과학 등 다양한 분야에서의 연구와 개발에 새로운 가능성을 열어줄 것입니다.

2. 기존 방법의 문제점

기존에도 화학 문제를 풀기 위한 다양한 ML 방법들이 존재했는데요. 이때의 화학 문제란, 분자식의 transition wavelength 를 분류하고, lipophilicity 등을 예측하고, 특성으로부터 분자식을 역추론해내는 문제등을 말합니다. 이러한 화학 문제를 풀기 위한 다양한 ML 방법들이 제안되었습니다. 이들은 분자 데이터 패턴으로부터 특징을 찾아낸다는 공통점을 갖고 있습니다. 분자식을 ML 모델이 이해할 수 있는 형태로 변환한 다음, 입력값과 출력값을 학습하여 데이터 패턴의 특징을 찾아내는 방식이죠.

한편 최근들어 LLM이 여러 분야에서 각광 받으며 언어 뿐만 아니라 다양한 비언어 Task에서도 LLM을 활용하는 사례가 늘어나고 있는데요. 이러한 흐름을 바탕으로 이번 논문에서도 LLM을 사용하여 여러 화학 문제를 푸는 방법을 제안합니다. 기존 ML 방식에서는 ML 모델이 이해할 수 있게 분자식 표현을 변환하는 과정이 필수적이었습니다. 그리고 이렇게 표현 방법에 따라 성능도 크게 달라졌죠. 하지만 LLM을 사용하게 되면 이러한 과정에서 큰 이점을 누릴 수 있는데요. 이렇게 분자식을 따로 ML 모델이 이해할 수 있는 방법으로 변환해줄 필요가 없다는 것입니다. LLM은 사람이 이해하는 자연어를 처리하잖아요? 그리고 모든 분자식은 사람이 이해할 수 있는 자연어 형태로 표현이 됩니다. 따라서 이 형태 그대로 LLM에 입력해주면 LLM은 자연스럽게 질문자의 의도를 이해할 수 있다는 장점이 있습니다.

3. 제안 방법 & 실험 결과

이번 논문에서의 제안 방법은 간단하므로, 이번 챕터에서는 이번 논문의 제안 방법과 각 Task별 실험 결과를 같이 살펴보겠습니다.

그림1. 이번 실험에서 사용할 Dataset, Tasks
그림1. 이번 실험에서 사용할 Dataset, Tasks

이번 논문에서 풀고자 하는 화학 문제는 크게 세가지 입니다. 위 그림은 이번 논문에서 다루고 있는 Dataset과 Task를 보여주고 있는데요. Task는 Classification, Regression, Inverse Design 을 수행할겁니다.

3-1. Classification

먼저 Classification은 ‘분류’ 문제인데요. 위 그림 예시에서는 특정 분자의 transition wavelength를 분류하는 문제를 예시로 들고 있습니다. 사람이 이해할 수 있는 자연어 형태로 특정 분자의 transition wavelength 를 질문했고, 이에 대해 ‘low’ 라고 분류하는 모습을 볼 수 있습니다.

실험에서는 분자의 phase를 분류하는 실험을 진행했습니다. 구분해야 하는 phase는 multi, single 두개입니다. 저자들은 대답을 multi, single로 수행하는 대신, 각각 0과 1로 대답하도록 실험을 세팅했습니다. 이번 실험의 prompt와 answer 세팅은 아래와 같습니다.

그림2. Classification 세팅
그림2. Classification 세팅

질문으로는 특정 분자식을 언급하며 phase를 물어보고 있습니다. 질문의 마지막에는 ###를 추가해 질문이 끝났음을 표시하고 있습니다. 대답은 0 또는 1로 하고 있는데요. 0은 multi phase를, 1은 single phase를 의미합니다. 대답도 마찬가지로 뒤에 @@@를 붙여 대답이 끝났음을 표시해주었습니다.

그림3. Classification 성능 비교
그림3. Classification 성능 비교

위 그래프는 이렇게 수행한 실험의 모델별 성능을 비교한 그래프입니다. 학습 데이터에 따른 성능을 비교하고 있는데요. 기존 LLM으로 화학 문제를 수행한 Reference (RF)를 비롯하여, 기존 ML 방법들보다 성능이 더 좋은 모습을 볼 수 있습니다.

3-2. Regression

다음으로 Regression은 ‘예측’ 문제입니다. 그림1의 예시에서는 마찬가지로 사람이 이해할 수 있는 자연어 형태로 특정 분자의 ‘친유성’ 정도를 물어보고 있는데요. 이에 대해 GPT3가 3.3 이라고 예측하는 모습을 볼 수 있습니다.

Classification 과는 달리 LLM으로 Regression을 수행하는건 제법 까다롭습니다. 왜냐하면 LLM은 Word Token에 대해 Cross Entropy로 학습하는데, 이렇게 해서는 ‘얼마나 먼지’ 를 표현할 수 없기 때문입니다. Regression 문제는 예측값과 실제값이 ‘멀 수록’ 더 큰 Loss를 받도록 설계해야 하는데, LLM의 구조적 특성상 이렇게 설계하기가 어려운거죠. 이 때문에 저자들도 다양한 방식을 고민했고, 실험 결과 Regression 문제에서도 ‘나쁘지 않은’ 성능이 나왔다고 언급하고 있습니다.

3-3. Inverse Design

마지막으로 Inverse Design은 ‘역설계’ 문제인데요. 입력으로 목표 분자의 성능을 넣으면, LLM은 이에 해당하는 분자식을 대답하는 구조입니다. 그림1에서는 특정 isomer transition wavelength를 갖는 분자를 질문했고, GPT3가 이에 해당하는 분자식을 대답하는 모습을 볼 수 있습니다.

개인적으로 이 Inverse Design 부분이 흥미로워서 이번 논문을 읽어보게 되었는데요. Inverse Design, Generation 등 다양한 이름으로 불리고 있는 이 Task는 결국 AI가 ‘설계’ 를 할 수 있는지에 대한 Task라고 이해하고 있습니다. 특히 LLM을 사용해서 Inverse Design을 수행하는 방법은 다양한데요. 이번 논문에서는 질문과 대답의 순서를 바꿔 GPT3를 Fine Tuning 하는 방법을 사용했습니다.

Inverse Design을 수행하기 위한 방법은 다양하고, 각 방법별로 장단점이 있을텐데요. 이렇게 질문과 대답의 순서를 바꿔 Fine Tuning 하는 방법 또한 장단점이 존재합니다. 우선 이렇게 성능에 매칭되는 설계를 직접 학습해준다는 방식은 직관적입니다. 기존 Supervised Learning의 철학과 일치하죠. 말 그대로 정답을 알려주겠다는거니까요. 하지만 지금처럼 ‘설계’ 문제의 경우 정답이 하나가 아닌 경우가 많다는게 문제입니다. 동일한 특성을 갖는 분자가 여러개가 존재할 수 있다는 것이죠. 이러한 상황에서 “이러한 특성을 갖는다면, 이 분자는 분명 이거야.” 라는 방법으로 학습했을때 얼마나 ‘창의적인’ 설계를 할 수 있는지가 관건이라고 할 수 있습니다.

그림4. Inverse Design 결과
그림4. Inverse Design 결과

저자들은 이러한 의문에 대해 위 실험 결과로 답하고 있는데요. 위 그림은 이렇게 학습한 GPT3가 설계한 분자들을 특성에 따라 공간에 매핑한 모습을 보여주고 있습니다. 초록색은 기존 학습 데이터에 존재하는 분자를, 분홍색은 학습 데이터에 존재하지 않는, GPT3가 창의적으로 설계한 분자에 해당합니다. 위 실험 결과를 봤을때는 제법 창의적인 대답을 잘 하는 모습을 볼 수 있습니다. 이는 아마도 학습 데이터에 없던 특성을 입력받아 예측했기 때문으로 생각됩니다.

4. 교훈

위에서도 잠깐 언급했듯, 이번 논문은 LLM을 사용해 Molecule Inverse Design을 한다는 아이디어가 흥미로워 정리해봤습니다. 이렇게 Inverse Design에 초점을 맞춰 이번 논문의 교훈을 다음 두 가지로 정리해봤습니다.

첫 번째는 Inverse Design 방법입니다. 최근들어 다양한 LLM을 사용한 Inverse Design 논문이 발표되고 있는데요. 제각각 다른 방법을 사용하고 있습니다. 이번 논문에서는 질문과 대답의 순서를 바꿔 Fine Tuning 하는 방법을 사용했고요. 즉 목표 특성을 Prompt로 입력하고, 이에 매칭되는 분자식을 대답하도록 학습해준거죠. 이렇게 학습했을때 걱정했던바와 달리 제법 창의적으로 대답하는 모습을 볼 수 있었습니다.

두 번째는 화학적 전문 지식이 낮은 LLM을 사용해서도 분자식을 생성하는 Inverse Design이 가능하다는 점입니다. 이 논문에서는 GPT3를 사용했는데요, GPT3는 화학, 분자 등과 관련된 특화된 모델이 아닙니다. 그럼에도 불구하고 적은 데이터만을 사용하여 분자식 구조를 예측하도록 학습했을 때 제법 Promising한 결과를 보여주었다는점이 고무적입니다.

5. 마치며

이번 Nature 논문 리뷰를 통해 우리는 LLM을 활용하여 분자식을 예측하는 방법의 가능성과 그 의미를 탐구해보았습니다. 기존의 화학 문제 해결 방식과는 달리, LLM을 사용함으로써 분자식을 자연어처럼 처리할 수 있다는 점은 과학 연구 방법론에 혁신적인 전환점을 제공합니다. 이러한 접근 방식은 분자 설계, 약물 발견, 재료 과학 등 다양한 분야에서 연구와 개발의 효율성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다.

본 논문에서 제시된 실험 결과들은 LLM이 언어 이외의 영역에서도 강력한 예측 도구로 활용될 수 있음을 명확히 보여줍니다. 특히, 분자의 특성을 예측하고, 새로운 분자식을 설계하는 과정에서 LLM의 활용은 기존 방법론을 대체하거나 보완할 수 있는 새로운 경로를 열어줍니다. 이는 과학적 발견과 혁신을 가속화하는 데 중요한 역할을 할 것입니다.

물론, 이러한 접근 방식이 가지는 한계와 도전 과제도 분명 존재합니다. LLM을 화학 문제 해결에 적용하기 위해서는 분자식과 관련된 데이터를 어떻게 효과적으로 LLM에 통합할 것인가, LLM의 예측 결과의 정확성을 어떻게 검증할 것인가 등 여러 가지 고려해야 할 사항들이 있습니다. 그럼에도 불구하고, 이번 논문이 제시하는 방법론은 분명히 탐구할 가치가 있는 새로운 지평을 열어줍니다.

이번 논문 리뷰를 통해 얻은 통찰력은 앞으로의 연구 방향성에 중요한 영감을 제공할 것입니다. LLM의 활용 가능성을 화학 분야로 확장함으로써, 우리는 과학 연구의 새로운 장을 열어갈 준비가 되어 있습니다. 이러한 혁신적인 접근 방식이 앞으로 어떤 새로운 발견과 발전을 이끌어낼지 기대해보며, LLM을 활용한 분자식 예측 방법의 연구와 개발이 계속해서 진행되기를 바랍니다.

6. 참고자료

  1. Jablonka, Kevin Maik, et al. “Leveraging large language models for predictive chemistry.” Nature Machine Intelligence (2024): 1-9.
  2. GPT3 논문 리뷰
  3. LIFT 논문 리뷰
  4. Text2Concrete 논문 리뷰
Series Navigation<< [24′ Research Square] Text2Concrete : LLMs can Design Sustainable Concrete – a Systematic Benchmark[07′ Energy Conversion & Management] Control oriented 1D electrochemical model of lithium ion battery >>
0 0 votes
Article Rating
Subscribe
Notify of
guest
4 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
ppeace
ppeace
1 month ago

안녕하세요! 늘 재미있게 포스팅 읽고있는 AI나그네입니다.
Inverse Design이 매우 매력적으로 느껴졌는데요 몇가지 질문이있어 글을 남깁니다.
1. 화학식을 내뱉기위해서 학습데이터셋은 얼마나있어야 잘 추론할까요?
2. 학습데이터셋 구성 시 화학식 특성을 어떤 형태로, 얼마나 구체적으로 작성하였을까요?
3. 화학적 knowledge를 추가로 학습하게하면 성능이 더 좋아질까요? 그 knowledge는 어떤식으로 학습시키면 될까요? 항상 데이터셋 구성이 고민이라서요 ㅠ

Binance开户
Binance开户
1 month ago

Your article helped me a lot, is there any more related content? Thanks!

4
0
Would love your thoughts, please comment.x
()
x
Scroll to Top