멀티모달 데이터 불확실성 정량화를 위한 생성 스코어 추론
초록
본 논문은 이미지·텍스트 등 다양한 형태의 멀티모달 데이터를 대상으로, 딥 생성 모델을 이용해 조건부 스코어 분포를 추정하고 이를 기반으로 예측 집합과 신뢰 구간을 구성하는 Generative Score Inference(GSI) 프레임워크를 제안한다. GSI는 기존의 보수적 가정이나 제한된 적용 범위에 얽매이지 않으며, 조건부 커버리지를 이론적으로 보장한다. 실험에서는 LLM의 환각 탐지와 이미지 캡션링에서 기존 최첨단 방법들을 능가하는 성능을 보여, 생성 모델의 품질이 불확실성 정량화에 직접적인 영향을 미침을 확인한다.
상세 분석
GSI는 “스코어 함수” s(y, ŷ)를 중심으로 설계된다. 이 함수는 예측값 ŷ와 실제값 y 사이의 차이를 정량화하며, 회귀에서는 L1 손실, 텍스트에서는 교차 엔트로피 혹은 ROUGE‑L 차이와 같은 도메인 특화 지표가 사용된다. 핵심 아이디어는 조건부 스코어 분포 P(s|x)를 직접 모델링함으로써, 특정 입력 x에 대해 스코어의 (1‑α) 분위수를 추정하고, 이를 임계값으로 삼아 예측 집합 Cα(x)= {y : s(y, ŷ) ≤ q1‑α} 를 만든다. 기존의 컨포멀 예측은 전체 데이터에 대한 교환 가능성을 전제로 한 마진 커버리지만, GSI는 조건부 커버리지를 목표로 하며, 이는 멀티모달 데이터에서 특히 중요한데, 이미지·텍스트와 같이 고차원·비구조적 특성을 가진 경우 교환 가능성이 성립하기 어렵기 때문이다.
조건부 스코어 분포 추정에 사용되는 생성 모델은 확률적 디퓨전 모델, 정규화 흐름, 혹은 자동 회귀 모델 등 다양한 아키텍처와 호환된다. 논문에서는 디퓨전 모델을 주로 사용했는데, 이는 비가우시안·다중모드 형태의 분포를 안정적으로 학습하고 샘플링 비용이 비교적 합리적이기 때문이다. 이때 중요한 가정은 “생성 오류” τ가 충분히 작아야 한다는 점이며, 저자들은 총변동 거리(TV) 기반의 오류 한계를 제시하고, n→∞ 일 때 β(τ, ns)→0 임을 증명한다. 따라서 충분한 캘리브레이션 데이터와 강력한 생성 모델이 확보되면, GSI는 이론적으로 정확한 조건부 커버리지를 제공한다.
실험 부분에서 GSI는 세 가지 도메인에 적용되었다. 첫째, 표준 회귀 벤치마크에서는 기존 컨포멀 방법보다 더 좁은 인터벌을 제공하면서도 90% 이상 커버리지를 유지했다. 둘째, 대형 언어 모델(LLM)의 환각 탐지에서는 스코어를 의미론적 불일치량으로 정의하고, GSI 기반의 임계값 검정이 최신 Semantic Entropy 방법보다 높은 정밀도·재현율을 기록했다. 셋째, 이미지 캡션 선택 작업에서는 MS‑COCO 데이터에서 VLM이 생성한 캡션의 품질을 평가하는데, GSI가 Conformal Alignment보다 높은 통계적 파워와 더 정확한 선택률을 보였다. 특히, 생성 모델의 품질(예: 디퓨전 모델의 샘플링 단계 수)을 늘릴수록 GSI의 성능이 점진적으로 향상되는 현상이 관찰되어, 이 프레임워크가 생성 모델의 발전에 직접적으로 이득을 얻을 수 있음을 시사한다.
한계점으로는 (1) 생성 모델 학습에 필요한 대규모 캘리브레이션 데이터와 높은 컴퓨팅 비용, (2) 스코어 함수 설계가 도메인에 따라 달라야 하므로 전문가 지식이 필요함, (3) 조건부 생성이 실패하거나 TV 거리 추정이 부정확할 경우 커버리지 보장이 약화될 가능성이 있다. 향후 연구에서는 보다 효율적인 샘플링 기법, 스코어 함수 자동 학습, 그리고 비정형 데이터에 대한 생성 오류 이론을 확장하는 방향이 제시된다. 전반적으로 GSI는 멀티모달 불확실성 정량화에 대한 통합적이고 이론적으로 견고한 접근법을 제공하며, 생성 모델의 지속적인 발전과 함께 실용성이 크게 확대될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기