긴 텍스트 LLM 출력의 세밀한 불확실성 정량화: 비교 연구

긴 텍스트 LLM 출력의 세밀한 불확실성 정량화: 비교 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 장문 생성에서 발생하는 허위 사실(환각)을 탐지하기 위해, 응답을 문장·주장 단위로 분해하고 각 단위별로 불확실성을 점수화한 뒤 전체 응답 수준으로 집계하는 세 단계 파이프라인을 제안한다. 네 가지 스코어링 패밀리(유닛‑응답, 매치‑유닛, 유닛‑QA, 그래프 기반)를 체계화하고, 다양한 일관성 측정 함수와 집계 연산자를 조합해 실험을 수행한 결과, 주장‑응답 엔텔멘트가 가장 높은 성능을 보이며, 주장 수준 점수가 문장 수준보다 우수하고, 불확실성‑인식 디코딩이 장문 사실성 향상에 크게 기여함을 확인하였다.

상세 분석

이 연구는 장문 생성 상황에서 기존의 짧은 텍스트용 불확실성 정량화(UQ) 기법이 갖는 한계를 명확히 짚고, 이를 보완하기 위한 포괄적인 프레임워크를 제시한다. 핵심은 ‘응답 분해 → 유닛‑레벨 점수화 → 응답‑레벨 집계’라는 3단계 파이프라인이며, 각 단계마다 설계 선택지를 체계적으로 분류한다.
첫 번째 단계인 응답 분해에서는 문장 단위와 주장(atomic claim) 단위를 선택할 수 있다. 문장 분해는 규칙 기반 혹은 사전 학습된 문장 경계 모델을 이용하고, 주장 추출은 LLM 기반 질의응답 혹은 추출 모델을 활용한다. 주장 수준은 사실 검증에 더 직접적으로 연결되므로, 실험에서 전반적인 정확도가 높게 나타난다.
두 번째 단계인 유닛‑레벨 점수화에서는 네 가지 스코어링 패밀리를 정의한다.

  1. 유닛‑응답 스코어러는 원본 유닛을 전체 샘플 응답과 직접 비교해 NLI 기반 엔텔멘트 확률(p_e) 혹은 비모순 확률(1‑p_c)을 평균한다. 이는 기존 LUQ·LUQ‑atomic과 동일한 형태이며, 엔텔멘트와 비모순을 모두 고려한 ‘대조 엔텔멘트(p_e·p_e/(p_e+p_c))’를 확장해 사용한다.
  2. 매치‑유닛 스코어러는 원본 유닛과 각 샘플 응답에서 가장 유사한 유닛을 매칭한 뒤, 해당 쌍의 일관성(엔텔멘트, 코사인 유사도, BERTScore 등)을 평균한다. 이는 LUQ‑pair과 동일하지만, 코사인·BERTScore와 같은 임베딩 기반 측정도 옵션으로 제공한다.
  3. 유닛‑QA 스코어러는 유닛을 질문으로 변환하고, 동일 프롬프트에 대해 다중 답변을 생성한다. 이후 답변 간 일관성을 NLI 혹은 임베딩 기반 함수로 측정한다. 이 방식은 기존 ‘semantic entropy’ 접근을 일반화한 것으로, 질문 생성 품질에 따라 성능 변동이 크다.
  4. 그래프 기반 스코어러는 모든 샘플 응답에서 추출된 주장들을 정점으로, 주장‑응답 엔텔멘트 관계를 간선으로 하는 이분 그래프를 구성한다. 베트윈니스, 클로즈니스, 하모닉, 라플라시안 중심성, PageRank 등 다양한 그래프 중심성 지표를 활용해 각 주장에 대한 불확실성을 추정한다.
    세 번째 단계인 응답‑레벨 집계에서는 단순 평균, 최소값, 혹은 ‘불확실성‑인식 디코딩(uncertainty‑aware decoding)’과 같은 복합 연산자를 적용한다. 특히, 불확실성이 높은 주장만을 필터링하거나, 디코딩 단계에서 온도 조절·top‑p 조정을 통해 낮은 신뢰도 토큰을 억제하는 전략이 장문 사실성 향상에 크게 기여한다는 점이 눈에 띈다.
    실험은 여러 LLM(예: GPT‑3.5, LLaMA‑2, Claude 등)과 데이터셋(요약, 장문 질문‑답변, 의료 보고서 등)에서 수행되었으며, 평가 지표는 단위 수준 정확도, 캘리브레이션 오류, 응답‑레벨 F1 등을 포함한다. 결과는 다음과 같다.
  • 주장‑응답 엔텔멘트(p_e·p_e/(p_e+p_c))가 가장 높은 정확도와 좋은 캘리브레이션을 동시에 달성했다.
  • 주장 수준 점수가 문장 수준보다 일관성·정밀도 모두에서 우수했으며, 특히 복잡한 사실 관계가 얽힌 의료 텍스트에서 차이가 두드러졌다.
  • 불확실성‑인식 디코딩을 적용하면, 동일 프롬프트에 대해 샘플링된 응답들의 평균 엔텔멘트 점수가 상승하고, 실제 허위 사실 비율이 현저히 감소했다.
    또한, 각 스코어링 패밀리와 일관성 함수의 조합을 체계적으로 비교함으로써, 기존 연구들 간의 관계를 명확히 정리하고, 실무 적용 시 어떤 구성요소를 선택해야 하는지 실용적인 가이드를 제공한다. 이 프레임워크는 오픈소스 툴킷(uqlm)으로 공개돼 재현성과 확장성을 보장한다.

댓글 및 학술 토론

Loading comments...

의견 남기기