- [’17 Nucleic Acids Research] FlavorDB: a database of flavor molecules
- [’17 CVPR] Learning Cross-modal Embeddings for Cooking Recipes and Food Images
- [’19 IJCAI] KitcheNette: Predicting and Recommending Food Ingredient Pairings using Siamese Neural Networks
- [’21 Nature Scientific Reports] FlavorGraph: a large‑scale food‑chemical graph for generating food representations and recommending food pairings
- [’24 Nature Communications] Predicting and improving complex beer flavor through machine learning
- [’24 NeurIPS] SMELLNET: A Large-scale Dataset for Real-world Smell Recognition
1. 들어가며
이번 글에서는 2024년 Nature Communications에 발표된 Predicting and improving complex beer flavor through machine learning 논문의 핵심 내용들을 정리해보겠습니다. 논문의 주요 내용이 맥주의 향미를 머신러닝 모델로 예측하고, 주요한 향을 조절하여 맥주 맛을 개선하는 것에 초점을 맞추고 있으므로, 이번 글에서는 이 논문을 BeerFlavor라고 지칭하겠습니다.
AI의 발달로 다양한 특성 예측 또는 생성이 가능해지면서 여러 산업 도메인에서 활발하게 적용이 이루어지고 있습니다. FoodTech 분야 역시 예외는 아니며, 다양한 형태의 음식 관련 데이터셋이 만들어지고 있습니다. 예를 들어 레시피, 재료, 이미지, 화학 성분 등을 엮어 음식의 특성을 예측하거나, 새로운 조합을 생성하려는 시도들이 이어지고 있습니다.
이번 논문이 흥미로운 점은 이러한 대규모 범용 데이터셋을 활용하는 방식이 아니라, 맥주라는 좁은 도메인에 집중하여 연구를 수행했다는 점입니다. 연구진은 맥주 250종에 대해 화학적 조성과 감각적 평가 데이터를 자체적으로 구축하였고, 이를 바탕으로 머신러닝 모델을 통해 맥주의 향미를 예측하고, 나아가 향미를 개선할 수 있는 가능성을 실험적으로 검증했습니다.
이번 글에서는 논문의 주요 내용을 크게 두 가지 측면에서 살펴보겠습니다. 첫 번째는 제안 방법입니다. 맥주 향미 분석을 위해 데이터셋을 어떻게 구성했는지, 어떤 머신러닝 모델을 사용해 무엇을 학습했는지 등을 중심으로 정리해봅니다. 두 번째는 실험 결과입니다. 논문에서는 다양한 데이터 분석 결과가 제시되어 있지만, 이번 글에서는 그중 머신러닝 모델을 활용한 결과에 초점을 맞춰 살펴보겠습니다.
2. Beer Flavor
먼저 BeerFlavor 논문의 핵심 부분인 제안 방법 부분을 정리해보겠습니다. 크게 두가지로 나누어 살펴볼건데요. 먼저 데이터셋을 어떻게 구축했는지 살펴봅니다. 이어서 이러한 데이터셋을 학습하기 위한 모델은 어떻게 구성했고, 실험했는지를 살펴보겠습니다.
2-1. Dataset
앞서 설명한대로, 이번 연구의 목적은 맥주의 향을 분석하고, 이를 통해 더 맛있는 맥주를 개발하는것입니다. 그러자면 우선 맥주가 필요할텐데요. BeerFlavor 연구진은 이를 위해 벨기에 상업 맥주 250종을 사용했습니다. 그에 대한 이유로는 벨기에 맥주는 스타일 다양성이 풍부하고, 전통적 발표 방식과 현대적 양조 방식이 혼재해 있어 복잡한 풍미 연구에 적합하다고 밝히고 있습니다. 이렇게 선정된 250종의 맥주에는 Ales, Tripels, Larger 등 다양한 스타일의 맥주가 모두 포함되었습니다.
이제 맥주는 준비되었으니, 각 맥주별 향을 분석하기 위해서는 각 맥주별로 어떠한 화합물들이 존재하는지를 분석해야 하는데요. 왜냐하면 결국 ‘향’ 이라는건 특정 화합물 분자가 우리 코의 수용체와 작용하면서 벌어지는 기작일테니, 각 맥주별로 어떠한 화합물들이 어떠한 농도로 존재하고 있는지를 알아야겠죠. 이를 위해 가스 크로마토그래피, 질량 분석, 포토메트릭, 효소 분석법, 근적외선 분석법 등을 사용합니다. 각각의 분석 장비는 분석 대상이 달라 최대한 많은 화합물을 찾아내기 위해 다양한 분석 장비를 사용한것으로 보입니다. 예를 들어, 가스크로마토 그래피는 기본적으로 휘발성 물질을 detecting 하기 위해 사용합니다. 이때 Flame이 포함되는 장비들은 알코올, 에스터, 알데히드 등의 유기화합물과 황 화합물을 검출하기 위해 사용하죠. 질량 분석장비는 아주 낮은 농도에서 강한 향을 내는 고감도 휘발성 성분을 검출합니다. 효소분석은 비휘발성, 수용성 성분을 검출하고, 근적외선 분석 장비를 사용해서는 에탄올 농도를 측정할 수 있죠.
이제 이렇게 각 맥주별로 어떠한 화합물들로 구성되어 있는지를 확인했으니, 이제는 어떠한 맛과 향이 나는지를 확인해야 할 차례입니다. 맛과 향이라는건 사람이 주관적으로 느끼는 감각이므로 사람이 직접 측정할 수 밖에 없는데요. 이를 위해 연구에서는 크게 두가지 방법을 사용합니다.
첫 번째는 16명의 훈련된 패널들이 직접 맥주를 평가하는 방법입니다. 이를 관능평가라고 부르는데요. 이는 일종의 정답 데이터가 되어 후에 머신러닝 모델이 학습하게 되는 맥주의 향과 맛 정보가 됩니다. 평가한 항목들은 홉, 맥아, 에스터, 향신료 등의 아로마 정도, 단맛, 쓴맛, 산미 등의 맛, 오프 플레이버, 알코올감, 탄산감, 바디감 등의 팔레트와 전반적 기호도 등이 있습니다.
두 번째는 각 맥주에 대한 온라인 리뷰 데이터입니다. RateBeer 플랫폼에는 다양한 맥주에 대한 소비자 평가가 있는데요. 전체 약 23만건 중 영어 리뷰 18만여개만 필터링 해서 사용했습니다. 이 또한 관능평가 항목과 거의 유사한 항목들을 포함하고 있는데요. 관능 평가 데이터는 소수의 훈련된 패널들만을 사용하므로 데이터 편차가 작지만, 소비가 리뷰 데이터는 관능 평가와 경향도 조금씩은 다르고 편차가 훨씬 더 클것임을 예상할 수 있습니다.
2-2. Models
이제 이렇게 구성한 데이터셋을 사용하여 다양한 머신러닝 모델로 예측 성능을 비교해봤습니다. 예측하고자 하는 값은 두가지입니다. 하나는 훈련된 패널 점수, 즉 관능평가값입니다. 두 번째는 소비자 리뷰 점수의 평균값입니다. 모델은 각 맥주별 화학 성분들을 입력받아 관능평가값 또는 소비자 리뷰 점수의 평균값을 예측해야 하는 문제입니다.
전체 250개의 맥주중 70%는 학습용 데이터로, 나머지 30%는 테스트 데이터로 사용했습니다. 데이터 개수를 감안하면 일반적으로 딥러닝 모델이 동작할 수 있는 수준은 아니기에 간단한 머신러닝 모델들이 훨씬 유리할것으로 생각됩니다.
비교한 모델들은 다음과 같습니다.
우선 선형 계열 모델들로는 Linear regression, Lasso Regression, Partial least squares regression 등을 사용했습니다.
트리 기반 모델은 Random forest, Estra Trees, Gradient Boosting Regressor, AdaBoost Regressor, XGBoost Regressor 등을 사용했습니다.
기타 모델들로는 Support Vector Regressor, ANN 등을 사용했습니다.
데이터 규모를 감안하여 머신러닝 모델이 주류로, 딥러닝 모델이 서브로 사용된것으로 보입니다.
3. Results
이제 이렇게 구성된 모델을 사용한 실험 결과들을 살펴봅니다. 먼저 모델별 예측 성능 비교 결과를 살펴봅니다. 이어서 모델 해석을 통해 어떤 화합물이 소비자 기호도를 좌우하는지에 대한 분석 결과를 살펴봅니다. 마지막으로 이렇게 학습된 모델을 활용하여 맥주 향을 더 좋게 만들기 위한 응용 방법에 대해 살펴보겠습니다.
3-1. 모델별 예측 성능 비교
먼저 다양한 머신러닝 모델들의 예측 성능 비교 결과를 살펴보겠습니다. 아래는 실험 결과를 보여주고 있습니다.
![['24 Nature Communications] Predicting and improving complex beer flavor through machine learning 1 그림1. 모델별 예측 성능 비교 결과](https://ffighting.net/wp-content/uploads/2025/10/image-25-1024x385.png)
결과를 보면 예상대로 트리 기반 모델들이 전반적으로 가장 좋은 성능을 보여주고 있습니다. 재미있는건 소비자 평가 리뷰 점수인 RateBeer 성능이 전반적으로 전문가 관능평가 예측 성능보다 좋다는건데요. 전문가들의 평가점수는 말하자면 일종의 ‘정답’ 역할을 해주어 모델이 더 쉽게 학습할것으로 예상했는데, 반대 경향을 보이고 있습니다. 이는 소비자 리뷰 평가 점수가 아주 많은 인원이 평가함에 따라 변동성이 많이 줄어들어 모델 입장에서는 차이가 많이 없는 결과가 되었기 때문으로 보입니다.
3-2. 모델 해석
다음으로는 모델 해석 부분을 살펴보겠습니다. GBR 모델의 성능이 가장 좋았으므로 이번 챕터에서는 GBR 모델을 중심으로 모델 해석을 진행합니다. 크게 두 가지 방법(MDI, SHAP)을 사용하여 모델 해석을 진행했습니다.
![['24 Nature Communications] Predicting and improving complex beer flavor through machine learning 2 그림2. 모델 해석 결과](https://ffighting.net/wp-content/uploads/2025/10/image-26-843x1024.png)
위 그림은 모델 해석 결과를 보여주고 있는데요. 결과를 보면 에틸 아세테이트는 두가지 방법 모두에서 가장 중요한 화합물로 도출된 모습을 볼 수 있습니다. 두 번째로 에탄올이 높은 점수를 받았는데요. 평가 데이터에 무알콜 맥주가 포함되어 있고, 이 무알콜 맥주들이 낮은 점수를 받았음을 고려해봤을때 이로 인해 과대평가된 경향이 있을것임을 예상할 수 있습니다.
이번 글에서는 포함하지 않았지만, 논문에서는 데이터 상관분석을 진행했는데요. SHAP이 도출한 주요 변수 15개와 단순 상관분석 결과가 꽤나 다르다는 점은 생각해볼만한 이슈입니다. 단순 상관 분석으로 Spearman 계수를 측정했는데, 역시 복잡한 상호작용과 비선형적인 관계 분석을 위해서는 머신러닝 모델을 활용하는게 더 효과적임을 알 수 있습니다.
3-3. Model Validation
마지막 실험은 이번 연구의 하이라이트로, 이렇게 분석한 결과와 머신러닝 모델을 활용하여 맥주 맛을 더 좋게 만들 수 있을지에 대한 실험 결과를 살펴보겠습니다. 앞서 모델 해석을 통해 맥주 맛에 영향을 주는 주요 인자들을 포착했는데요. 이러한 화합물들을 실제 맥주에 첨가하여 정말 맥주 맛과 향이 좋아지는지 평가를 진행해봤습니다.
![['24 Nature Communications] Predicting and improving complex beer flavor through machine learning 3 그림3. 모델 Validation 결과](https://ffighting.net/wp-content/uploads/2025/10/image-27-1024x763.png)
위 그림은 실험 결과를 보여주고 있습니다. 그림 A에서는 주요 화합물을 첨가하면서 변하게 된 맥주 성분 농도 변화를 보여주고 있습니다. 그림 B에서는 이렇게 두가지 맥주에 대해 관능평가를 진행한 결과를 보여주고 있는데요. 각 y축 값은 두개의 서로 다른 맥주에 선호 평가를 한 평가자의 비율로 보면 됩니다. 그림 B를 보면 주요 화합물을 첨가했을때 압도적으로 많은 사람들이 더 선호하는 모습을 볼 수 있습니다.
4. 마치며
이번 BeerFlavor 논문은 FoodTech 분야에서 머신러닝이 어떻게 실질적인 향미 개선에까지 활용될 수 있는지를 잘 보여준 사례입니다. 특히 이 연구는 범용적인 대규모 음식 데이터셋이나 외부 텍스트 기반 데이터에 의존하지 않고, 도메인에 특화된 정량적 화학 분석과 주관적 감각 평가 데이터를 직접 구축했다는 점에서 매우 인상적입니다.
또한 단순한 예측 모델 개발을 넘어서, 모델 해석을 통해 주요 향미 화합물을 도출하고, 이를 실제 맥주에 첨가하여 기호도와 향미 개선을 실험적으로 입증했다는 점도 주목할 만합니다. 이는 AI가 분석한 결과가 단순한 수치나 통계에 그치지 않고, 실제 제품 개발로 이어질 수 있음을 보여주는 좋은 사례라고 할 수 있습니다.
이번 연구를 통해 얻을 수 있는 중요한 통찰은 다음과 같습니다.
첫째, 향미와 기호도와 같은 감각적 특성도 충분히 데이터 기반 예측이 가능하다는 점.
둘째, 이와 같은 문제를 해결하기 위해서는 물리적, 화학적 특성과 감각적 평가를 연결하는 정교한 데이터 설계가 필요하다는 점.
셋째, 모델이 제안하는 중요한 feature들을 실제 물리적 실험을 통해 검증하는 구조적 접근이 향후 FoodTech 응용 연구에서 중요한 방향이 될 수 있다는 점입니다.
향후에는 이러한 방식이 맥주뿐만 아니라 와인, 커피, 발효식품 등 다양한 식음료 영역으로 확장될 수 있을 것입니다. 특히 인간의 주관적 감각과 데이터 기반 분석 사이의 간극을 좁히기 위한 시도로서, 이 논문은 하나의 모델 케이스로 참고될 수 있을 것입니다.
![['24 Nature Communications] Predicting and improving complex beer flavor through machine learning 4 Aragon Headshot Jongyub Seok 26](https://ffighting.net/wp-content/uploads/2025/10/Aragon-Headshot-Jongyub-Seok-26.jpg)


![['17 Nucleic Acids Research] FlavorDB: a database of flavor molecules 9 flavorDB](https://ffighting.net/wp-content/uploads/2025/10/image.png)
![['17 CVPR] Learning Cross-modal Embeddings for Cooking Recipes and Food Images 10 Im2Recipe Model](https://ffighting.net/wp-content/uploads/2025/10/image-1-1024x328.png)