클래스 인식 트립렛 손실과 적응형 샘플링을 결합한 불균형 탭형 데이터 생성 모델 CTTVAE
초록
CTTVAE는 트랜스포머 기반 변분 오토인코더에 클래스‑aware 트립렛 마진 손실과 Training‑by‑Sampling(TBS) 전략을 추가해, 심각한 클래스 불균형 상황에서도 소수 클래스의 잠재 공간을 촘촘히 군집시키고 샘플링 빈도를 높인다. 이를 통해 합성 데이터가 다운스트림 분류 성능을 크게 향상시키면서도 재현성·프라이버시를 유지한다.
상세 분석
본 논문은 탭형 데이터의 불균형 문제를 해결하기 위해 두 가지 핵심 메커니즘을 설계하였다. 첫 번째는 클래스‑aware 트립렛 마진 손실이다. 기존 TTVAE는 MMD 기반의 잠재 분포 정규화만 수행해 클래스 간 구분이 약했으나, 트립렛 손실을 도입함으로써 동일 클래스의 잠재 벡터는 서로 가깝게, 다른 클래스와는 최소 마진(m)만큼 떨어지도록 강제한다. 반감형 네거티브 마이닝을 적용해 학습 효율을 높였으며, α 파라미터로 손실 비중을 조절한다. 두 번째는 Training‑by‑Sampling(TBS)이다. 배치 구성 시 희소한 범주값을 우선적으로 선택해 학습 데이터에 대한 노출을 균등화한다. 특히, 다중 이산 특성에 대해 각 값이 최소 한 번씩 등장하도록 보장함으로써 소수 클래스가 모델 파라미터에 충분히 반영되게 한다. 이러한 샘플링은 모델 안정성을 해치지 않으며, 기존 CTGAN의 TBS를 변형해 잠재 공간 구조화와 결합하였다.
CTTVAE는 인코더에서 얻은 평균(µ)·분산(σ)와 컨텍스트 임베딩(h)을 이용해 잠재 z를 샘플링하고, 클래스별 잠재 집합 S_c를 만든 뒤 k‑NN 기반 역순 가중치 삼각 보간을 수행한다. 이 과정은 동일 클래스 내에서만 보간이 이루어지므로, 생성된 샘플이 클래스 의미를 유지한다. 또한, MMD 손실을 유지해 잠재 분포를 표준 정규와 정렬함으로써 디코더가 안정적으로 학습된다.
실험에서는 6개의 공개 데이터셋(의료, 사기 탐지, 예측 유지보수 등)에서 CTTVAE+TBS가 소수 클래스에 대한 다운스트림 정확도·F1 점수를 기존 VAE, GAN, Diffusion 모델보다 현저히 높였다. 특히, 원본 불균형 데이터를 그대로 사용한 경우보다 높은 성능을 보였으며, 재현성 지표(FID, KS)와 프라이버시 측정(민감도 차이)에서도 경쟁력을 유지했다. Ablation 실험은 트립렛 손실과 TBS 각각이 성능 향상에 기여함을 확인했으며, α와 β 하이퍼파라미터가 적절히 조정될 때 잠재 공간이 명확히 구분되고 샘플 품질이 최적화됨을 보여준다.
이 모델은 클래스 외에도 인구통계, 지역, 제품군 등 임의의 이산 변수에 조건을 부여할 수 있어, 다양한 비즈니스 시나리오에 적용 가능하다. 또한, 트랜스포머 기반 인코더 덕분에 고차원 상관관계와 혼합형 특성을 효과적으로 포착한다는 점이 기존 선형 또는 단순 오토인코더 기반 방법보다 큰 장점으로 작용한다.
댓글 및 학술 토론
Loading comments...
의견 남기기