대형 언어 모델의 사실 생성에 대한 강건한 불확실성 측정

읽는 시간: 8 분
...

📝 원문 정보

- Title: Robust Uncertainty Quantification for Factual Generation of Large Language Models
- ArXiv ID: 2601.00348
- 발행일: 2026-01-01
- 저자: Yuhao Zhang, Zhongliang Yang, Linna Zhou

📝 초록

(본 논문은 큰 언어 모델(LLM)의 다중 사실 생성에 대한 신뢰성 측정을 위한 새로운 접근법을 제안합니다. 이를 위해 우리는 함정 질문을 포함하는 데이터셋을 구축하고, 이를 통해 LLM의 출력 불확실성을 정량화하는 방법을 개발했습니다.)

💡 논문 해설

1. **함정 질문 생성 파이프라인 소개**: - 이 연구에서는 LLM들이 잘못된 정보를 제공할 수 있는 함정 질문을 만드는 방법을 제시합니다. 이를 통해 모델의 신뢰성을 테스트하고 개선하는데 도움을 줍니다. - 메타포: 함정 질문은 마치 벌레가 들어갈 수 있는 작은 구멍과 같습니다. 이 구멍을 찾으면 모델이 어떻게 작동하는지 더 잘 이해할 수 있습니다.
  1. 함정 질문 데이터셋 구성:

    • 우리는 함정 질문을 포함한 새로운 다중 사실 생성 데이터셋을 구축했습니다.
    • 메타포: 이것은 마치 퀴즈를 만드는 것과 같습니다. 퀴즈에 다양한 종류의 문제를 넣어 학생들의 이해도를 더 잘 평가할 수 있습니다.
  2. 강력한 불확실성 측정 방법 개발:

    • 함정 질문에 대한 모델 출력의 불확실성을 정량화하는 새로운 방법을 제안합니다.
    • 메타포: 이는 마치 날씨 예보에서 확률을 사용하여 비가 올 가능성을 알려주는 것과 같습니다. 우리 방법은 LLM의 답변이 얼마나 신뢰할 수 있는지 알려줍니다.

📄 논문 발췌 (ArXiv Source)

큰 언어 모델, 가짜 인물의 전기 생성, 강력한 불확실성 측정

서론

큰 언어 모델(LLMs)이 자연어 처리(NLG) 분야에서 광범위하게 활용되면서 이러한 모델에 대한 의존성이 일상 생활에서도 증가하고 있다. 사람들이 LLM을 읽기와 문서 이해, 의사 결정 지원, 그리고 모델의 응답과 생성 내용을 이용해 다양한 작업을 완료하는 데 사용하면서 이 의존성은 더욱 커지고 있다. 이러한 의존성이 늘어나면서 모델 출력의 신뢰성과 정확성을 중요하게 생각해야 한다. 그러나 LLMs는 필연적으로 “환영"이라는 문제에 직면한다. 환영 현상은 모델이 불명확하거나 허위 내용을 생성하는 것을 의미하며, 이는 출력의 신뢰성과 정확성에 큰 도전을 제시한다.

LLMs의 환영은 사실적 환영과 충실도 환영으로 구분할 수 있다. 충실도 환영은 주로 입력에 대한 출력의 충실성을 평가하며, 사실적 환영은 생성된 내용이 현실과 일치하는지 여부를 평가한다. 충실도 환영은 출력과 입력 사이의 관련성을 평가함으로써 쉽게 식별할 수 있지만, 사실적 환영은 세밀한 성격과 분산된 분포로 인해 직관적으로 감지하기 어렵다. 모델은 표면적으로 일관되고 설득력 있는 내용을 생성할 수 있다. 예를 들어 실제 개인의 전기를 생성하는 작업에서 틀린 또는 가짜 사실이 포함된 출력을 생성할 수 있다. 또한 사용자가 우연히 가상 인물의 전기를 생성하도록 요청하면 모델은 이를 일반적인 작업으로 처리할 가능성이 있다. LLMs에서 환영을 완전히 제거하는 것은 불가능하므로, 우리는 모델 생성 출력에 대한 불확실성을 외부적으로 측정함으로써 이 문제를 해결하려고 한다. 높은 불확실성에 해당하는 답변을 강조하면 사용자에게 잠재적인 오류를 알릴 수 있다.

현재 여러 방법이 LLMs의 생성물에 대한 불확실성을 정량화하기 위해 제안되었다. 그러나 이러한 방법들은 보통 전체 생성 텍스트 수준에서 불확실성을 고려한다. 생성된 내용이 여러 사실을 포함할 때, 이러한 기존 방법은 정확한 측정에 한계가 있다. 예를 들어 실제 오류가 존재하더라도 측정된 불확실성이 낮을 수 있는 상황이 발생할 수 있다.

자연어 처리(NLP)에서 다중 사실 생성은 여러 독립적인 사실을 포함하는 텍스트를 생산하는 것을 의미한다. 다중 사실 생성의 불확실성 평가는 단일 사실 생성보다 복잡하다. 이는 모델이 생성된 텍스트를 개별 사실로 분해하고 각각의 사실에 대한 불확실성을 측정하며 복잡한 맥락 내에서 동시에 검증해야 한다는 것을 의미한다. 또한 생성 과정에서 발생하는 환영은 직관적으로 감지하기 어렵기 때문에 평가를 더욱 복잡하게 만든다. 이전 연구는 주로 실제 데이터 기반의 다중 사실 생성을 중심으로 이루어졌으며, 생성된 출력에 대한 진실 확인을 수행하였다. 그러나 LLM 사용자는 실생활에서 의도적이나 우연히 잘못된 함정 질문을 모델에게 제시할 수 있다. 예를 들어 가상 인물의 전기를 생성하도록 요청하는 경우가 있을 수 있다. 이때 모델은 생성을 거부하거나, 특정 확률로 가상 인물에 대한 전기나 실제 전기에서 사실을 이전할 가능성이 있다. 이러한 상황에서는 생성된 내용을 개별적인 사실로 분해하기 어렵다. 우리는 이전 방법들이 실생활 사용자의 요구를 충족하지 못하며, 오류 질문에 직면했을 때의 출력 불확실성 측정에서 견고성을 갖추지 못한다고 주장한다. 이는 다중 사실 생성 및 진실 확인에 대한 불확실성 측정을 더욱 어렵게 만든다.

우리 연구는 함정 질문을 기반으로 LLMs의 다중 사실 생성에 대한 불확실성을 정량화하는 것을 목표로 한다. 이를 위해 우리는 함정 질문을 사용한 다중 사실 생성 시나리오를 구축하였다. 이 시나리오를 실현하기 위해 가상 전기 생성 작업을 위한 데이터셋 구성 파이프라인을 소개한다. 구체적으로, 77개의 함정 질문과 네 가지 LLM에서 샘플링된 385개의 생성물을 포함하는 데이터셋을 만들었다. 또한 견고한 불확실성 추정 방법 $`RU`$를 개발하였다. 네 가지 모델 및 몇 가지 기준 방법과의 비교를 통해 제안된 접근법의 우수성을 입증한다. 우리의 연구는 함정 질문을 기반으로 한 불확실성 추정에 대한 첫 번째 연구라고 할 수 있다. 우리의 접근 방식은 세밀한 분류와 측정을 통해 함정 질문에 대한 불확실성 정량화를 효과적으로 해결한다. 우리는 우리의 연구가 다중 사실 생성 작업에서의 불확실성 추정 연구에 기여할 것으로 기대한다.

우리의 기여는 다음과 같다:

  • LLMs 기반 함정 질문 구성 파이프라인을 소개하고, 이를 통해 77개의 함정 질문으로 구성된 데이터셋 $`MulFactTrap`$을 구축하였으며, 이에 기반한 네 가지 LLM에서 385개의 생성물을 포함시켰다.
  • 다중 사실 생성의 견고한 백박스 불확실성 추정 방법을 제안하였다.
  • 제안된 함정 질문 구성법과 불확실성 측정법에 대한 실험적 검증을 수행하였으며, 네 가지 LLM에서 이들 방법의 우수성을 입증하였다.

관련 연구

LLMs의 출력에 대한 불확실성 정량화는 로짓 기반 방법, 내부 상태 기반 방법, 언어 표현 기반 방법, 일관성 추정 기반 방법, 대리 모델 기반 방법으로 나눌 수 있다. 로짓 기반 방법은 구현이 간단하고 직관적인 출력을 제공하지만, 복잡한 비선형 문제를 처리할 때 데이터 내의 미묘한 관계를 정확하게 포착하는 데 실패하여 과소적합될 가능성이 있다. 내부 상태 기반 방법은 모델의 내부 공간으로 파고들 수 있지만 계산이 복잡하고 모델 아키텍처에 크게 의존한다. 언어 표현 기반 방법은 이해하기 쉽지만 정확한 측정 결과를 제공하지 못한다. 일관성 추정 기반 방법은 블랙박스 및 화이트박스 모델 모두에 적용할 수 있지만 계산 비용이 높다. 대리 모델 기반 방법은 계산 효율성이 뛰어나지만 정밀도가 제한적이다.

기존 연구는 주로 단일 사실 생성에 초점을 맞추었다. 반면 다중 사실 생성의 불확실성 측정은 세밀한 수준과 더 높은 정확성을 요구하므로 더욱 큰 도전이 된다. 최근 2년 동안 여러 방법들이 다중 사실 생성의 불확실성 측정을 위해 제안되었다. Fadeeva et al.은 모델이 생성하는 토큰의 확률을 조정하고 집계하여 주장 수준에서 불확실성을 얻는 Claim-Conditioned Probability (CCP) 방법을 제안하였다. Jiang et al.은 CORE 구성 요소를 소개하여 모델에 의해 생성된 주장 중 독특성과 정보성이 있는 것을 필터링하고, 필터링된 사실들만 진실 확인을 수행한다. 이 접근법은 불확실성 방법의 견고성을 어느 정도 강화한다. Vazhentsev et al.은 조건부 및 비조건부 생성 신뢰도 사이의 간극을 타겟 변수로 하는 회귀 모델을 훈련하여 현재 생성된 토큰의 불확실성을 조정하는 TAD 방법을 제안하였다. 이 방법은 긴 텍스트 생성에 특히 효과적이지만 추가적인 학습 데이터를 구성해야 하므로 계산 비용이 높다. 그러나 우리의 지식으로는 이전 연구들은 함정 질문에 대한 불확실성 정량화나 다중 사실 생성 작업에서 함정 질문에 대한 답변의 신뢰성을 연구하지 않았다. 이것은 기존의 불확실성 측정 방법이 함정 질문을 적용할 때 견고성이 부족하다는 우려를 제기한다.

견고한 불확실성 정량화 및 시나리오 구성

이 섹션에서는 Section 3.1에서 소개할 예정인 제안된 불확실성 측정 시나리오와 함께 이 시나리오에 필요한 데이터셋 구성 방법을 Section 3.2에서 소개한다.

견고한 불확실성 정량화 시나리오 설명

불확실성 정량화를 위한 일반적인 데이터셋은 사실적으로 올바른 질문만 포함하고 있어, 꼼수 또는 오해의 소지를 가진 질문을 포함하지 않기 때문에 실제 응용 프로그램에서 LLMs의 불확실성을 측정하는 데 충분히 견고하지 못하다. 실제로 사람들은 모델에 의도적으로(강건성 평가 또는 악성 공격을 위해) 혹은 무심코(소홀함으로 인해) 틀리거나 가짜 질문을 제시할 수 있다. 모델이 사용자의 의도에 따라 이러한 질문을 받아들여 답변하면, 답변에는 사실적 오류가 포함될 가능성이 높으며 불확실성 정량화는 더 높은 불확실성을 반영해야 한다. 반면 모델이 질문을 거부하거나 그 안의 오류를 식별하면 불확실성 정량화는 더 낮은 값을 제공해야 한다. 이 시나리오에서 사용된 문자와 기호 및 그 의미는 Table 1에 나와 있다.

기호 의미
$`q`$ LLM에 제시된 질문
$`g`$ LLM이 질문을 기반으로 생성한 답변
$`t_j`$ LLM의 $`j`$-번째 단계에서 생성된 토큰
$`f_i`$ 분해 가능한 $`i`$-번째 사실
$`\phi`$ $`f_i`$와 $`t_j`$ 사이의 관계
$`U`$ 불확실성 정량화 함수
$\theta $ 고/저 불확실성 값을 구분하는 임계값
$`F`$ 생성물에서 분해된 사실 집합

기호와 의미 사용 시나리오

함정 질문을 기반으로 LLMs의 다중 사실 생성에 대한 불확실성 정량화에서는 질문이 $`q`$이고, LLM이 생성한 $`m`$ 개의 토큰으로 구성된 출력은 $`g = \{t_1, t_2,..., t_m\}`$이다. LLM이 생성한 $`g`$는 외부 모델이나 방법을 통해 $`n`$ 개의 사실 $`F`$로 분해될 수 있다, 즉, $`F = \{f_1, f_2,..., f_n\}`$. 따라서 각각의 사실 $`f_i`$와 LLM이 생성한 토큰 사이에는 매핑 관계 $`\phi`$가 있으며, 아래 [eq1]에 표현되어 있다. 여기서 $`j`$-번째 단계에서 생성된 토큰은 $`t_j`$로 표시된다.

MATH
\begin{equation}
\phi: f_i \mapsto \{ t_j \in g \mid \text{토큰 } t_j \text{가 } f_i \text{와 관련이 있음} \}.\label{eq1}
\end{equation}
클릭하여 더 보기

불확실성 점수를 $`U`$라고 가정하자. 이 시나리오에서는 [eq2]에 표시된 관계를 충족하는 적절한 함수 $`U`$를 찾아야 한다. 여기서 $`\theta`$의 값은 실제 상황에 따라 결정된다.

MATH
\begin{equation}
\begin{cases}
U(g)>\theta, & \text{생성 } g \\
U(g)\leq\theta, & \text{생성 거부 }
\end{cases}\label{eq2}
\end{equation}
클릭하여 더 보기

모델의 오류 생성 문제에 대응하기 위해 사실 집합 $`F`$ 내에서 더 많은 사실이 있으면 불확실성 정량화 함수 값인 $`U`$가 높아지는 적절한 함수 $`U`$를 찾는다. [eq3]에 표현되어 있으며, 여기서 $`|F|`$은 사실 집합 $`F`$의 크기를 나타낸다.

MATH
\begin{equation}
\begin{gathered}
U: F \rightarrow \mathbb{R}, \\
s.t.\forall F_1,F_2, \ |F_1| > |F_2| \implies U(F_1) > U(F_2).
\end{gathered}\label{eq3}
\end{equation}
클릭하여 더 보기

MulFactTrap 데이터셋 구성

기존의 다중 사실 생성 데이터셋은 LLMs의 견고성을 측정할 때 불확실성에 대한 견고성을 반영하는 데 한계가 있으며, 불확실성 추정 방법의 성능을 종합적으로 평가하는 데 실패한다. 따라서 우리는 함정 질문을 포함한 새로운 다중 사실 생성 데이터셋을 구축하였다. 이 데이터셋은 LLMs이 이를 기반으로 생성 성능에 대한 견고성을 반영하며, 불확실성 추정에도 사용되어 불확실성 추정 방법의 견고성을 측정할 수 있다.

대형 언어 모델은 생애를 묘사하는 질문을 처리할 때 여러 사실을 생성한다. 예를 들어 “알베르트 아인슈타인은 독일에서 태어난 이론 물리학자로 20세기 최고의 과학자 중 한 명으로 널리 알려져 있다.“라는 문장은 “알베르트 아인슈타인은 독일에서 태어난 사람이다"와 “알베르트 아인슈타인은 이론 물리학자다"와 같은 몇 가지 독립적인 사실로 분해할 수 있다. 따라서 우리는 주로 생애 생성 시나리오에 초점을 맞추고 함정 질문 다중 사실 생성 데이터셋을 구성한다.

먼저, LLMs을 사용한 함정 질문 구축 파이프라인을 소개한다. Fig. 2에 보여진 대로 이 파이프라인은 두 가지 주요 구성 요소인 LLM Generator($`LLM_G`$), LLM Verifier($`LLM_V`$)를 포함한다. $`LLM_G`$는 잠재적인 가짜 이름을 생성하는 역할을 하며, $`LLM_V`$는 $`LLM_G`$가 생성한 이름의 진실성을 평가한다.

데이터셋 구축을 위한 전체적인 프레임워크.

대형 언어 모델은 학습 단계에서 실제 개인에 대한 광범위한 정보를 접함으로써 생애 생성 능력을 갖추게 된다. 그러나 특정 인물의 존재를 묻는 질문을 받으면


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키