관측되지 않은 대안 생성

초록

본 논문은 입력에 대해 여러 정답이 존재하지만 학습 시에는 하나의 정답만 제공되는 상황을 다룬다. 기존 회귀와 조건부 생성 모델은 단일 출력을 내놓는 경향이 있어, 다중 고품질 예측을 생성할 새로운 접근법을 제안한다.

상세 요약

이 연구는 “다중 정답이 가능한데 하나만 라벨링된” 문제를 정식화하고, 이를 기존 머신러닝 패러다임과 구분한다. 회귀는 입력당 하나의 관측값을 전제로 손실 함수를 최소화하지만, 여기서는 동일 입력에 대해 여러 가능한 출력이 존재한다는 점에서 근본적인 불일치가 발생한다. 반대로 조건부 생성 모델은 다수의 관측값을 모두 제공받아 학습하므로, 관측되지 않은 대안을 탐색하는 데는 적합하지만 라벨이 부족한 상황에서는 충분한 지도 정보를 얻지 못한다. 논문은 이러한 격차를 메우기 위해 두 가지 핵심 아이디어를 제시한다. 첫째, 관측된 정답을 ‘핵심(ground‑truth)’으로 간주하고, 그 외의 잠재적 대안을 ‘보조(alt‑candidate)’로 모델링한다. 둘째, 변분 추론과 대조 학습을 결합해, 모델이 입력에 대해 다수의 고품질 출력을 샘플링하도록 유도한다. 구체적으로, 입력 x에 대해 잠재 변수 z를 도입하고 p(y|x,z) 를 학습한다. 여기서 z는 다양한 대안을 인코딩하는 역할을 하며, 관측된 y와는 다른 ŷ 를 생성하도록 설계된다. 손실 함수는 (1) 관측된 y에 대한 로그우도 최대화, (2) 생성된 ŷ 들이 서로 충분히 다양하면서도 데이터 분포에 부합하도록 하는 다이버전스 정규화, (3) ‘다중 모드’성을 유지하기 위한 모드‑분리 보상항으로 구성된다. 특히, 모드‑분리 보상은 서로 다른 샘플이 동일한 모드에 수렴하는 현상을 방지하기 위해, 샘플 간 거리를 최대화하거나, 판별기가 각 샘플을 별개의 클래스로 구분하도록 학습한다. 실험에서는 이미지 캡셔닝, 기계 번역, 그리고 구조적 질의 응답 등 여러 도메인에서 기존 회귀·GAN·VAE 기반 모델을 능가하는 성능을 보였다. 특히, 관측되지 않은 정답을 생성하는 능력은 인간 평가에서 높은 점수를 받았으며, 다양성‑정밀도 트레이드오프를 효과적으로 조절한다는 점이 강조된다. 이 접근법은 라벨이 희소하거나 다중 해답이 자연스러운 상황(예: 디자인 제안, 대화 생성, 의학 진단)에서 실용적인 대안 생성 도구로 활용될 수 있다.

초록

상세 요약

📜 논문 원문 (영문)