[24′ Research Square] Text2Concrete : LLMs can Design Sustainable Concrete – a Systematic Benchmark

This entry is part 1 of 7 in the series Battery

1. 들어가며

자연어 처리(NLP)와 딥러닝 기술의 발전은 다양한 분야에서 혁신을 가져왔습니다. 특히, 설계 분야에서 이러한 기술의 적용은 설계 프로세스의 자동화와 최적화를 가능하게 하며, 새로운 가능성을 열어가고 있습니다. 최근 “Text2Concrete”라는 연구는 이러한 기술적 진보를 콘크리트 설계 분야에 적용하여, 기존의 Data Driven Design(DDD) 방식의 한계를 극복하고 Knowledge Driven Design(KDD) 방식을 제안합니다. 이 블로그 포스팅에서는 “Text2Concrete” 논문의 주요 내용을 소개하고, 이 새로운 접근 방식이 콘크리트 설계 분야에 어떤 변화를 가져올 수 있는지 탐구해보고자 합니다.

2.기존 방법의 문제점

본격적으로 제안 방법을 살펴보기 전에 기존의 딥러닝을 사용한 설계 방법의 문제점에 대해 생각해보겠습니다. 딥러닝이 다양한 분야에서 두각을 나타내면서 설계 분야에서도 딥러닝을 사용한 다양한 방법이 발표되었는데요. 설계 인자 X로부터 성능 인자 Y가 매칭되어 있는 데이터셋을 제작한 뒤 이 둘을 매핑해주는 함수를 학습하는 방법이죠. 이렇게 딥러닝 모델을 학습하면 성능 인자 Y에 매핑되어 있는 설계 인자 X를 찾는 방법을 통해 설계를 자동화할 수 있습니다.

이렇게 딥러닝을 사용한 설계 방법을 Data Driven Design (DDD)라고 하는데요. Data Driven Design 방식의 특징은 수많은 데이터를 통해 X와 Y의 상관 관계를 유추해낸다는 점입니다. 이때 X와 Y의 관계에 대한 기존 전문가의 지식은 사용되지 않는데요. 이러한 특성은 Data Driven 방식의 가장 큰 장점이자 가장 큰 단점이기도 합니다. 데이터만 충분히 있다면 X와 Y의 상관관계를 모르더라도 딥러닝 모델이 이 복잡한 함수를 찾아주기 때문이죠. 하지만 이러한 특성은 거꾸로 생각해보면, 전문가의 지식을 활용할 방법이 없다는 뜻이기도 합니다.

이 논문에서는 이러한 Data Driven Design 방식의 한계를 지적합니다. 이에 대한 대안으로는 Knowledge Driven Design 방식을 제안하는데요. Data Driven Design 방식과는 달리 전문가의 Domain Knowledge를 적극적으로 활용하는 방법입니다. 이렇게 전문가의 지식을 딥러닝 모델에 활용해주기 위해 LLM을 사용해줄겁니다. 이렇게 LLM을 사용하여 콘크리트를 설계하는 방법을 제안하였다는 의미로 이번 논문을 Text2Concrete 라고 부릅니다.

3. 제안 방법

이번 챕터에서는 Text2Concrete의 구체적인 방법을 자세히 살펴보겠습니다. 크게 네가지 소챕터로 나누어 살펴볼건데요. 첫 번째 챕터에서는 제안 방법이 전체적으로 어떻게 구성되어 있는지 Workflow를 살펴보겠습니다. 두 번째 챕터에서는 Prompt Design 방식에 대해 살펴볼건데요. Text2Concrete 에서는 전문가의 Domain Knowledge를 LLM을 사용하여 딥러닝 모델에 활용해주는 방법을 사용합니다. 이를 위해서는 전문 지식을 Prompt로 잘 구성해주어야 하는데요. 어떠한 방법을 사용했는지 주목해서 살펴보겠습니다. 세 번째로는 데이터셋입니다. 최종적으로는 제안한 방법을 통해 목표 성능을 만족하는 콘크리트 설계 인자를 제안하는 모델을 만들어야 하는데요. 이때 사용되는 데이터셋에 대해 살펴봅니다. 마지막으로 성능 비교 실험을 위해 사용할 Baseline Model 들을 살펴보겠습니다.

3-1. Workflows

먼저 Workflow를 살펴보겠습니다. Text2Concrete에서는 크게 두 가지 접근 방식을 사용합니다.

첫 번째는 Standard Feedback Design 방식입니다.

그림1. Standard Feedback Design 방식
그림1. Standard Feedback Design 방식

위 그림은 Standard Feedback Design 방식의 Workflow를 표현하고 있습니다. 먼저 Design Assistant는 LLM을 의미합니다. 설계 인자를 제안해주는 역할을 LLM이 할건데요. 목표 성능을 내기 위한 설계 인자를 LLM이 제안해주면, 이렇게 나온 Suggested Design을 User가 받아 평가하는 역할을 할 겁니다. LLM이 제안한 설계 인자로 설계 했을 때 최종 성능이 어떻게 나오는지를 실험이나 문헌을 통해 평가하는 것이죠. 이렇게 나온 결과인 Lab Validation은 다시 Design Assitant 에게 피드백으로 들어갑니다. 이 피드백을 받아 LLM 모델을 다시 설계 제안을 하게 되고, 이러한 과정을 반복하는 것이죠.

두 번째는 TVDL (Testing and Verification Design Loop) 입니다.

그림2. TVDL 방식
그림2. TVDL 방식

위 그림은 TVDL의 Workflow를 표현하고 있습니다. 우선 8자 모양의 흐름을 보여주고 있는데요. 우선 왼쪽 원형은 SFDL과 동일한 모습입니다. 오른쪽 Workflow가 차별점인데요. 동일하게 Design Assistant에 해당하는 LLM이 설계인자 X를 제안해줍니다. 그런데 X를 하나가 아니라 여러개를 제안해주는겁니다. 이렇게 나온 N개의 Test Design은 Verifier Model로부터 평가를 받습니다. 이 Verifier Model도 구성하는 방법이 다양하지만, 이 논문에서는 LLM으로 구성해주었습니다. 그럼 N개의 설계 인자는 Verifier Model로부터 성능을 각각 예측받게 됩니다. 이렇게 나온 예측 성능 결과 중 가장 높은 성능이 예상 되는 설계 인자를 하나 선택합니다. 이렇게 선택된 설계 인자가 Best Test Design에 해당합니다. 이 결과는 다시 User에게 돌아가 SFDL과 동일한 Workflow를 돕니다.

결국 TVDL의 차별점은 SFDL과 달리 Verifier Model이 있어 한번 더 평가를 거친 뒤 User에게 최종 설계안을 전달한다는 점인데요. 이 두가지 Workflow 방식은 어떠한 성능 차이를 냈는지, 나중에 실험 결과를 통해 살펴보겠습니다.

지금까지 나온 주요 역할을 한번 더 정리해보면 다음과 같습니다.

그림3. Design Assitant, User, Verifier Model의 역할
그림3. Design Assitant, User, Verifier Model의 역할

위 그림은 Design Assitant, User, Verifier Model 세 가지 역할에 대해 표현한 그림입니다.
Design Assistant는 LLM으로써 Instruction, Design Knowledge, Few Shot Data를 받아 Target에 해당하는 설계 인자를 찾는 모델이라고 할 수 있습니다.
User는 다양한 방식으로 구현할 수 있는데요. 이번 논문에서는 단순히 Table Look Up 방식을 통해 Design Assistant가 제안한 설계인자 X를 문헌을 통해 평가하는 방식으로 구현했습니다.
Verifier Model도 마찬가지로 다양한 방식으로 구현할 수 있는데요. 이번 논문에서는 LLM을 사용하여 Instruction, Design Knowledge, Few Shot Data를 받아 설계 인자 X로부터 성능 Y를 예측하도록 구현했습니다.

3-2. Prompt Design

앞서 Design Assistant는 LLM을 통해 구성했다고 말씀드렸는데요. 이때 Design Knowledge를 Prompt를 통해 잘 입력해주는게 핵심 기능 중 하나라고 할 수 있습니다. 이때 저자들은 두 가지 방식의 Prompt Design을 사용하는데요.

첫 번째는 General Design Knowledge를 입력해주는 방법입니다. GPT에게 우리 과제를 대략적으로 설명해주고 Domain Knowledge를 만들어달라고 요청하는거죠.

그림4. Generic Prompt
그림4. Generic Prompt

위 그림은 이러한 ‘Generic’ 방법의 Prompt Design 예시를 보여주고 있습니다. 우리가 무엇을 할 지 알려 주고, 데이터 분포 특성을 알려주고 있죠. 그리고 나서 Best Design Knowledge를 알려달라고 요청하고 있는 모습입니다. GPT4는 이에 따라 대략적인 Domain Knowledge를 알려주고 있는 모습입니다.

두 번째는 Specific Design Knowledge를 입력해주는 방법입니다. GPT에게 하나 하나 주제에 대해 더욱 구체적인 질문을 통해 Domain Knowledge를 뽑아내는 방식이죠.

그림5. Specific Prompt
그림5. Specific Prompt

위 그림은 이러한 ‘Specific’ 방법의 Prompt Design 예시를 보여주고 있습니다. ‘Generic’ 방식과 비교해보면 질문도 훨씬 구체적이고, 이에 따라 GPT4의 대답도 주제별로 맞추어 훨씬 구체적인 모습을 볼 수 있습니다.

이렇게 다른 방식으로 구성된 Prompt의 Domain Knowledge는 분명 최종 설계 성능에 큰 영향을 줄 텐데요. 이후 실험 결과를 통해 각각의 Domain Knowledge 구성 방법에 따른 성능 차이를 살펴보겠습니다.

3-3. Dataset

다음으로는 실험에 사용된 데이터셋을 살펴보겠습니다. 데이터셋은 콘크리트 설계 인자 X와 그 성능 Y가 매칭되어 있어야 하는데요. 다음과 같습니다.

그림6. Dataset
그림6. Dataset

우선 표에 들어가 있는 값은 성능 인자 Y에 해당하는 Compressive Strength에 해당합니다. 이를 설계하기 위한 설계 인자 X로는 Blend, Curing, Water Concrete Ratio, Powder Content 등이 있습니다. 총 240여가지의 설계 인자 X 조합에 대한 Compressive Strength가 나와 있는 모습입니다.

이렇게 총 240여개의 데이터를 LLM에게 입력으로 넣어줄때는 이러한 정보를 Text로 변환하여 입력해주어야 하는데요. 예를 들어 다음과 같이 변환해줍니다.

그림7. 입력 Text 예시
그림7. 입력 Text 예시

이러한 방식을 통해 각 설계 인자 X 값으로 무엇이 들어갔는지를 LLM에 입력해줄 수 있습니다.

3-4. Baseline

마지막으로 제안 방법과 비교해볼 기존 Data Driven Design 방식의 모델들을 살펴보겠습니다. 대표적으로 세 가지 모델을 선정했는데요. Bayesian Optimization, Sequential Learning with Random Forest, Random Draw 세 가지 방식입니다.

사실 이 세가지 방식이 Data Driven Design 방식 중에서 가장 우수한 모델인지에 대한 내용은 없는데요. 따라서 실험 결과를 살펴볼 때 이 모델들이 Data Driven Design 방식의 성능을 대표한다고 볼 수는 없겠습니다.

4. 실험 결과

이제 제안 방법인 Knowledge Driven Design 방식과 기존 Data Driven Design의 콘크리트 설계 성능을 비교해보겠습니다.

그림8. 실험 결과
그림8. 실험 결과

위 표는 제안 방법과 기존 방법들의 콘크리트 설계 성능을 비교한 그림인데요. 먼저 Context는 Prompt를 어떠한 방법으로 구성했는지를 의미합니다. none은 Domain Knowledge를 전혀 주입하지 않은 결과이구요. Generic과 Specific은 각각의 Prompt 방식을 통해 Domain Knowledge를 넣어준 결과를 의미합니다. TT=1은 SFDL workflow 방식을, TT=3은 TVDL workflow 방식을 의미합니다. dev cycle은 피드백을 받는 사이클을 몇번 돌았는지를 의미합니다.

위 실험결과를 통해 몇 가지 의미있는 결론을 도출할 수 있습니다.
첫 번째로 사이클을 많이 돌 수록 설계 성능이 좋아진다는 점입니다. 이는 피드백을 통해 점진적으로 목표 성능에 도달할 수 있기 때문으로 추정됩니다.
두 번째로 TVDL workflow 방식의 설계 성능이 더 좋다는 점입니다. 이를 통해 여러개의 설계 인자를 추론한 뒤 평가받는 방식이 더 효과적임을 알 수 있습니다.
세 번째로 Domain Knowledge는 구체적으로 입력할 수록 더 좋고, 또한 성능에 가장 결정적인 역할을 한다는 점입니다.
네 번째로 Knowledge Driven Design 방식이 대체로 Data Driven Design 방식보다 우수하다는 점입니다. 물론 이 실험을 통해 이러한 결론을 내릴 수는 없지만, 최소한 Knowledge Driven 방식의 설계도 Data Driven 방식의 설계에 필적할만한 성능을 낼 수 있다는 정도의 결론은 내릴 수 있습니다.

5. 한계

“Text2Concrete” 논문 리뷰를 통해 살펴본 Knowledge Driven Design 방식은 분명히 기존의 Data Driven Design 방식에 비해 많은 장점을 가지고 있음을 보여줍니다. 특히, 전문가의 지식을 활용하여 설계 과정에 깊이를 더하고, LLM을 통해 이러한 지식을 구체적으로 모델링하는 접근 방식은 매우 혁신적입니다. 그러나 이러한 접근 방식은 여전히 몇 가지 한계를 가지고 있습니다.

첫 번째로, Computational Cost의 증가는 무시할 수 없는 문제입니다. 여러 대안을 탐색하고, 이 중 최적의 해결책을 도출하는 과정은 상당한 계산 자원을 요구합니다. 특히, LLM을 사용하여 다양한 설계 인자를 평가하고, 이를 통해 최적의 설계안을 도출하는 과정은 시간과 자원이 많이 소모되는 작업입니다. 이는 특히 대규모 설계 프로젝트나 실시간으로 설계 결정을 내려야 하는 상황에서 큰 제약이 될 수 있습니다.

두 번째로, 전문가 지식의 정확성과 최신성을 유지하는 것도 중요한 도전 과제입니다. Knowledge Driven Design 방식은 전문가의 지식에 크게 의존하기 때문에, 이 지식이 최신의 연구 결과나 산업 표준을 반영하지 않는 경우 설계의 품질이 저하될 수 있습니다. 따라서, 지속적으로 전문가 지식을 업데이트하고 검증하는 메커니즘이 필요합니다.

세 번째로, 이 방식은 여전히 일정 수준의 주관성을 배제할 수 없습니다. 전문가의 지식이나 경험은 객관적인 사실에 기반하기도 하지만, 때로는 개인의 해석이나 선호도가 반영될 수 있습니다. 이러한 주관성은 설계 과정에서 편향을 유발할 수 있으며, 이를 최소화하기 위한 추가적인 노력이 필요합니다.

마지막으로, “Text2Concrete” 논문은 새로운 설계 방식의 가능성을 탐구하며 중요한 기여를 했지만, 이 방식을 다양한 설계 영역이나 다른 유형의 문제에 적용하기 위해서는 추가적인 연구와 개발이 필요합니다. 특히, 다양한 설계 문제에 대한 적용성을 검증하고, 이 방식을 보다 효율적으로 만들기 위한 방법을 모색하는 것이 중요할 것입니다.

“Text2Concrete” 논문은 Knowledge Driven Design 방식을 통해 콘크리트 설계 분야에 새로운 시각을 제공했습니다. 이 연구는 앞으로의 설계 방식에 대한 논의를 촉진하고, 더 나은 설계 솔루션을 개발하기 위한 기반을 마련했다는 점에서 큰 의의를 가집니다.

6. 마치며

“Text2Concrete” 논문의 분석을 마무리하며, 이 연구가 콘크리트 설계 분야에 제시하는 새로운 접근 방식의 중요성과 잠재력을 다시 한번 강조하고자 합니다. Knowledge Driven Design 방식은 전문가의 지식을 적극적으로 활용하여 설계 과정을 개선하고, LLM을 통해 이 지식을 구체적으로 모델링하는 혁신적인 접근 방식을 제시합니다. 이 방식은 설계의 정확도와 효율성을 높이는 동시에, 설계 과정에 대한 투명성과 이해도를 증진시킬 수 있습니다. 그러나, 계산 비용의 증가와 전문가 지식의 정확성 유지 등의 도전 과제도 함께 제시합니다. 이러한 한계에도 불구하고, “Text2Concrete” 연구는 설계 분야에서의 NLP와 딥러닝 기술의 적용 가능성을 확장하며, 향후 연구와 개발에 중요한 기초를 마련했다는 점에서 큰 의의를 가집니다. 이 연구는 앞으로 콘크리트 설계뿐만 아니라 다양한 설계 분야에서의 혁신적인 접근 방식을 모색하는 데 있어 중요한 영감을 제공할 것입니다.

7. 참고 문헌

  1. Text2Concrete 논문
  2. GPT1 논문 리뷰
  3. GPT3 논문 리뷰
Series Navigation[23′ Nature Article] Leveraging large language models for predictive chemistry >>
0 0 votes
Article Rating
Subscribe
Notify of
guest
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
www.binance.com
www.binance.com
28 days ago

I don’t think the title of your article matches the content lol. Just kidding, mainly because I had some doubts after reading the article.

1
0
Would love your thoughts, please comment.x
()
x
Scroll to Top