다중LLM 적응형 컨포멀 추론으로 신뢰성 높은 사실성 보장
초록
**
본 논문은 LLM의 사실성 검증에 컨포멀 추론을 적용하면서, 기존 방법이 과도하게 보수적이거나 단순 선형 모델에 의존하는 문제를 해결한다. 저자들은 주장 수준 점수를 곱셈적으로 결합한 “멀티‑LLM 적응형 컨포멀 추론(MACI)”을 제안하고, 다중 LLM 앙상블을 이용해 사실성 점수의 정확성을 높인다. 그룹 조건부 보정을 통해 제한된 오류율(α) 하에 각 서브그룹마다 커버리지를 보장하면서, 유지율(retention)과 연산 비용을 크게 개선한다. 실험 결과, MACI는 다양한 의료·법률 데이터셋에서 목표 커버리지를 만족하면서도 기존 베이스라인 대비 유지율을 10‑30% 이상 향상시켰다.
**
상세 분석
**
MACI의 핵심 아이디어는 사실성을 “클레임‑레벨 점수들의 곱”으로 모델링하는 곱셈 필터링 프레임워크이다. 기존 컨포멀 방법은 가장 나쁜(최대) 점수 하나에만 의존해 전체 문서를 필터링했지만, 이는 점수 추정 오차에 매우 민감해 많은 진실 클레임을 버리는 결과를 초래한다. MACI는 각 클레임에 대해 다중 LLM(예: GPT‑4, Claude, LLaMA)으로부터 독립적인 사실성 확률을 추정하고, 이를 곱해 문서‑레벨 합치성 점수를 만든다. 이렇게 하면 개별 점수의 잡음이 상쇄되고, 전체 문서에 대한 신뢰도가 더 안정적으로 추정된다.
통계적 보장은 두 단계에서 이루어진다. 첫째, “오라클 필터링 규칙”을 정의해 이상적인 상황에서 정확히 α 수준의 커버리지를 달성하도록 임계값 τ와 경계 랜덤화 γ를 도입한다. 둘째, 실제 구현에서는 추정된 점수 (\hat p)와 문서‑레벨 적합도 (E_i = \inf{\tau: F(\hat p,\tau,U_i)\subseteq A_i})를 사용해 경험적 컨포멀 양자화(quantile)로 τ를 캘리브레이션한다. 이때 그룹‑조건부 캘리브레이션을 적용해, 사전 정의된 K개의 그룹(예: 의료 분야, 질문 유형, 사용자 인구통계)마다 별도 양자를 계산한다. 결과적으로 각 그룹에 대해 독립적인 유한표본 보장이 제공된다(정리 2).
효율성 분석에서는 오라클 점수와 추정 점수 사이의 L1 차이가 유지율에 직접적인 영향을 미친다는 정리를 제시한다. 점수 오차가 작을수록 더 많은 진실 클레임을 보존할 수 있다. 이를 바탕으로 저자들은 “다중‑LLM 앙상블” 설계를 제안한다. 각 LLM이 제공하는 점수를 가중 평균하거나 베이지안 모델 평균을 적용해 최종 (\hat p)를 만든다. 실험에서는 단일 LLM 대비 앙상블이 평균 절대 오차(MAE)를 15‑25% 감소시켰으며, 이는 곧 유지율(retention ratio)의 상승으로 이어졌다.
시간 복잡도 측면에서도 MACI는 기존 샘플링 기반 방법(다중 응답 일관성 검사)보다 훨씬 가볍다. 앙상블 점수 계산은 병렬화가 가능하고, 캘리브레이션 단계는 O(n log n) 수준의 정렬만 필요하다. 따라서 대규모 실시간 서비스에 적용하기에 실용적이다.
한계점으로는 그룹 정의가 사전에 명시되어야 한다는 점과, 앙상블에 포함되는 LLM들의 라이선스·비용 문제가 있다. 또한, 매우 불균형한 그룹(예: 특정 의료 서브도메인에 데이터가 거의 없는 경우)에서는 캘리브레이션 샘플이 부족해 보수적 필터링이 발생할 수 있다. 향후 연구에서는 자동 그룹 탐색 및 적응형 샘플링을 결합해 이러한 문제를 완화할 여지가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기