맥락 인식 이중 지표 기반 대형 언어 모델 신뢰도 추정 프레임워크
초록
CRUX는 질문‑답변 시 제공되는 컨텍스트와 모델 응답의 일치성을 동시에 평가하는 두 가지 새로운 메트릭, ‘맥락 엔트로피 감소’와 ‘통합 일관성’를 제안한다. 대규모 언어 모델이 컨텍스트를 얼마나 활용하는지와 모델 자체의 불확실성을 정량화해 AUROC 기준으로 기존 방법들을 능가한다.
상세 분석
본 논문은 기존 LLM 신뢰도 추정이 모델의 자체 일관성 혹은 자기 평가에만 의존해 왔던 한계를 지적한다. 특히 컨텍스트 기반 질문‑답변(CQA) 작업에서는 답변이 제공된 배경 지식에 얼마나 충실한지가 핵심인데, 기존 방법은 이를 간과한다. CRUX는 이 문제를 해결하기 위해 두 축을 도입한다. 첫 번째 축인 ‘맥락 엔트로피 감소(Contextual Entropy Reduction)’는 동일 질문에 대해 컨텍스트가 포함된 경우와 제외된 경우 각각 n개의 답변을 샘플링하고, 답변들을 양방향 함의 기반 의미 클러스터링으로 묶는다. 클러스터 분포의 엔트로피 차이 ΔH = H(context‑free) − H(context‑aware)를 계산함으로써, 컨텍스트가 모델의 출력 분포를 얼마나 압축했는지를 정량화한다. ΔH가 크게 양수이면 컨텍스트가 새로운 정보를 제공해 불확실성을 크게 감소시킨 것이며, ΔH≈0이면 두 가지 상황(모델이 이미 충분히 지식이 있거나, 컨텍스트를 활용하지 못함) 중 하나임을 의미한다.
두 번째 축인 ‘통합 일관성(Unified Consistency)’은 ΔH≈0 상황을 구분하기 위해 설계되었다. 컨텍스트 유무에 관계없이 생성된 2n개의 답변을 하나의 그래프에 노드로 두고, 의미적 유사도를 가중치로 하는 그래프 라플라시안을 구성한다. 여기서 평균 쌍(pairwise) 거리 혹은 중심(center) 거리 기반 지표(GC)를 계산해 전체 답변 집합의 일관성을 측정한다. 높은 일관성은 모델이 컨텍스트에 의존하지 않고도 질문을 정확히 이해하고 있음을, 낮은 일관성은 모델 자체의 불확실성(지식 부족 또는 컨텍스트 이해 실패)을 나타낸다.
두 메트릭을 결합하기 위해 논문은 2‑layer MLP를 사용해 ΔH와 GC를 동적으로 가중합한 뒤 시그모이드 함수를 통해 0‑1 신뢰도 점수를 출력한다. 이 구조는 데이터 불확실성(ΔH)과 모델 불확실성(GC)을 동시에 반영하면서, 상황에 따라 두 요소의 상대적 중요도를 학습할 수 있게 한다.
실험에서는 CoQA, SQuAD, QuAC와 같은 일반 독해 데이터와 BioASQ, EduQG 같은 도메인 특화 데이터에 LLaMA‑3‑8B와 Qwen‑14B 두 모델을 적용했다. 평가 지표는 AUROC이며, CRUX는 모든 베이스라인(ROUGE, BLEU, 그래프 라플라시안 기반 지표, NumSemSets 등)을 크게 앞섰다. 특히 도메인 특화 데이터에서 컨텍스트 의존도가 높은 질문에 대해 ΔH가 크게 양수인 경우 신뢰도 점수가 높은 반면, ΔH≈0이면서 GC가 낮은 경우 낮은 신뢰도를 부여해 오류를 효과적으로 탐지한다.
핵심 기여는 (1) 컨텍스트 충실성을 정량화하는 새로운 엔트로피 기반 메트릭, (2) 모델 자체 불확실성을 포착하는 통합 일관성 지표, (3) 두 지표를 학습 기반으로 융합해 실제 응용에서 신뢰도 판단을 가능하게 한 점이다. 이 접근은 LLM을 안전-critical 환경에 배치할 때, “이 답변을 믿어도 되는가?”라는 질문에 보다 근거 있는 판단을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기