정확성과 현실성을 겸비한 하이브리드 데이터 합성 알고리즘 Amalgam

Amalgam은 확률 그래프 모델(PGM)로 데이터의 통계적 정확성과 차등 프라이버시를 확보하고, 대형 언어 모델(LLM)로 복잡한 스키마를 처리해 현실감 있는 합성 데이터를 자동으로 생성한다. PGM이 만든 요약 통계와 유사 샘플을 LLM에 조건으로 제공하고, JSON 스키마 기반 문법 제한을 적용해 구조적 오류를 방지한다. 실험 결과 χ² 검정에서 91 %의 p값과 3.8/5의 현실성 점수를 얻어 기존 최첨단(3.3)보다 우수함을 입증한다.

저자: Antheas Kapenekakis, Bent Thomsen, Katja Hose

정확성과 현실성을 겸비한 하이브리드 데이터 합성 알고리즘 Amalgam
본 논문은 의료·금융 등 민감한 분야에서 데이터 공유와 모델 학습을 지원하기 위한 합성 데이터 생성 방법의 두 가지 주요 접근법, 즉 확률 그래프 모델(PGM)과 대형 언어 모델(LLM)의 장단점을 종합적으로 분석한다. PGM은 낮은 파라미터 수와 차등 프라이버시(DP) 적용이 용이해 통계적 정확도와 프라이버시 보장이 뛰어나지만, 복잡한 관계형 스키마를 다루는 데 한계가 있다. 반면 LLM은 방대한 사전 학습을 통해 복잡한 스키마와 텍스트·시계열 데이터를 자연스럽게 생성할 수 있지만, 원본 데이터에 대한 과도한 기억으로 프라이버시 위험이 존재하고, 생성된 데이터의 분포가 원본과 차이가 나기 쉽다. 이러한 상보적 특성을 활용하고자 저자들은 Amalgam이라는 하이브리드 합성 알고리즘을 제안한다. Amalgam의 파이프라인은 크게 두 단계로 나뉜다. 첫 번째 구조 학습 단계에서는 원본 관계형 데이터셋을 메타데이터와 분석 통계만 남기도록 이산화하고, 이를 기반으로 차등 프라이버시를 보장하는 PGM(예: PrivBayes, PrivMRF)을 학습한다. 이때 ε=2 정도의 낮은 프라이버시 예산을 사용해 전체 데이터의 조인된 통계 분포를 안전하게 추정한다. 학습된 PGM은 합성 데이터 생성을 위한 조건값(예: 연령, 성별, 입원 시간 등)을 샘플링한다. 두 번째 샘플링 단계에서는 PGM이 만든 조건값과 원본 데이터에서 가장 유사한 n개의 레코드를 선택한다. 유사도는 각 컬럼의 히스토그램 기반 확률 가중치를 활용해, 드문 값일수록 높은 가중치를 부여하는 방식으로 계산된다. 선택된 실제 레코드와 인간이 읽을 수 있는 형태의 조건값을 JSON 형식으로 변환한 뒤, LLM에 프롬프트한다. 프롬프트는 (1) 도메인 전문가 역할 지정, (2) 실제 샘플 제공, (3) 조건값 제시, (4) 합성 샘플 생성 지시, (5) 필요 시 추가 가이드(예: 비현실적 값 조정) 순으로 구성된다. LLM은 사전에 정의된 JSON 스키마와 문법 제한을 적용받아, 출력이 반드시 파싱 가능한 구조를 갖도록 강제된다. 이렇게 생성된 JSON은 다시 관계형 형태로 변환되어 최종 합성 데이터셋을 만든다. 현실성 평가를 위해 저자들은 인간 평가자를 배제한 자동화된 방법을 도입했다. 합성 샘플과 원본 샘플 n개를 LLM에 제공하고, “현실성 점수를 1~5 사이로 매겨라”는 지시를 내린다. LLM은 점수를 반환하고, 여러 샘플에 대해 평균을 내어 데이터셋 전체의 현실성 점수를 산출한다. 동일한 절차를 보류 데이터에 적용해 실제 데이터의 현실성 점수(4.7)를 기준선으로 삼는다. 실험에서는 MIMIC‑IV Admissions, eICU R1, CTUR SL, CTUR CE 네 개의 공개 관계형 데이터셋을 대상으로 Amalgam을 기존 PGM 기반 MARE와 비교했다. 결과는 χ² 검정에서 평균 91 %의 p값을 기록했으며, 제안된 현실성 점수는 3.8/5로 기존 최첨단(3.3)보다 현저히 높았다. 또한 다양한 로컬 LLM(LLaMA‑2, Gemma 등)을 사용한 실험을 통해 모델 크기에 따른 품질 변화를 확인했으며, 전반적으로 Amalgam이 프라이버시·정확도·복잡도 세 축을 모두 만족한다는 것을 입증했다. 논문의 주요 기여는 다음과 같다. 첫째, PGM이 제공하는 통계적 정확도와 차등 프라이버시를 LLM의 복잡한 스키마 처리 능력과 결합한 새로운 합성 프레임워크를 제시했다. 둘째, 조건값 기반 LLM 프롬프트 설계와 JSON 스키마 기반 문법 제한을 통해 구조적 오류와 비현실적 출력 문제를 최소화했다. 셋째, LLM을 활용한 자동 현실성 평가 방법을 도입해 인간 주관성을 배제하고 재현 가능한 메트릭을 제공했다. 마지막으로, 다양한 실제 관계형 데이터셋에 대한 실증 실험을 통해 제안 방법의 실용성을 검증했다. 하지만 몇 가지 한계도 존재한다. LLM의 품질에 크게 의존하므로, 작은 모델을 사용할 경우 현실성 점수가 크게 떨어질 수 있다. 또한 유사도 계산이 O(M·N) 복잡도를 가지며, 데이터 규모가 매우 클 경우 비용이 증가한다. 차등 프라이버시 예산이 낮을수록 PGM이 학습하는 통계의 정확도가 감소할 위험도 있다. 향후 연구에서는 근사 유사도 알고리즘을 도입해 계산 비용을 줄이고, 멀티모달 스키마(예: 이미지·텍스트 혼합) 지원을 확대하며, 프라이버시‑실용성 트레이드오프를 정량화하는 추가 메트릭을 개발할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기