Tabular Dataset Generation

[’24 ICLR] MIXED-TYPE TABULAR DATA SYNTHESIS WITH SCORE-BASED DIFFUSION IN LATENT SPACE

This entry is part 3 of 3 in the series Tabular Dataset Generation

TabSyn은 VAE와 Score-Based Diffusion Model을 결합하여 Tabular 데이터를 생성하는 새로운 접근 방식입니다. 기존 Diffusion Model이 연산 비용이 높고 샘플링 속도가 느린 문제를 해결하기 위해, 원본 데이터가 아닌 잠재 공간(Latent Space)에서 Diffusion을 수행합니다. 이를 통해 데이터의 복잡한 상관관계를 유지하면서도 더 효율적인 데이터 생성을 가능하게 했습니다.

TabSyn 2단계 학습 방법

[’23 ICML] TabDDPM: Modelling Tabular Data with Diffusion Models

This entry is part 1 of 3 in the series Tabular Dataset Generation

TabDDPM은 Diffusion Model을 활용하여 Tabular 데이터를 생성하는 새로운 접근 방식입니다. 기존 방법들은 범주형 변수와 연속형 변수를 동시에 다루는 데 어려움을 겪었지만, TabDDPM은 연속형 변수에는 Gaussian Diffusion, 범주형 변수에는 Multinomial Diffusion을 적용하여 보다 안정적인 데이터 생성을 가능하게 했어요. Forward 과정에서는 데이터를 점진적으로 노이즈화하고, Reverse 과정에서는 이를 복원하며 원본 분포를 학습합니다. 이를 통해 기존 GAN이나 VAE보다 더 현실적인 Tabular 데이터를 생성할 수 있으며, 학습 안정성과 일반화 성능도 뛰어납니다.

TabDDPM Architecture
Scroll to Top