LLM 내부 불확실성 스스로 요약하기
초록
SelfReflect는 LLM이 내부 답변 분포를 문자열 요약으로 정확히 전달할 수 있는지를 정보이론적 거리로 측정하고, 현재의 대형 모델들은 직접적인 자기반영이 불가능하지만 다수 샘플을 제공하면 신뢰성 있는 요약을 생성한다는 사실을 밝혀냈다.
상세 분석
본 논문은 “LLM이 자신의 내부 답변 분포를 어떻게든 문자열 하나로 요약할 수 있는가”라는 근본적인 질문을 제기한다. 이를 위해 저자들은 ‘SelfReflect’라는 새로운 메트릭을 정의한다. SelfReflect는 요약 문자열 S와 실제 답변 샘플 집합 A(1:N) 사이의 예측 충분성(predictive sufficiency)을 기반으로 한다. 요약 S가 이상적인 경우, 이후에 모델이 생성할 새로운 답변 B에 대한 조건부 분포 p(B|S)와 p(B|A(1:N))가 동일해야 한다는 정의를 내린다. 이를 검증하기 위해 마스크드 토큰 예측(Masked‑Token) 작업을 도입한다. 즉, 새로운 답변 B의 한 단어 B_i를 마스크하고, 나머지 문맥 B_{-i}와 함께 요약 S 혹은 샘플 집합 A(1:N)를 입력으로 넣어 두 개의 조건부 분포 p_J(B_i|q,S,B_{-i})와 p_J(B_i|q,A(1:N),B_{-i})를 추정한다. 여기서 p_J는 별도의 ‘판정자’ LLM이 제공한다. 두 분포 사이의 차이는 1‑Wasserstein 거리로 측정되며, 모든 질문·샘플·마스크 위치에 대해 평균을 취해 SelfReflect 점수를 산출한다.
이 메트릭은 기존의 LM‑judge 기반 평가나 임베딩 거리와 달리, 요약이 실제 답변 분포의 ‘정보’를 얼마나 보존하는지를 직접적으로 측정한다는 점에서 이론적·실용적 강점을 가진다. 논문은 두 가지 실험을 수행한다. 첫 번째는 인공적으로 설계된 폐쇄형·개방형 질문 세트에서 다양한 LLM(20종)과 여러 프롬프트(직접 질문, 체인‑오브‑쓰스, SFT, DPO 등)를 적용해 SelfReflect 점수를 측정한 것이다. 결과는 거의 모든 모델이 직접적인 자기반영 요약을 생성하지 못하고, 점수가 낮아 ‘불성실’한 요약임을 보여준다. 두 번째는 인간 평가와의 상관관계를 검증한다. 인간 평가자는 요약이 실제 답변 분포를 얼마나 잘 반영하는지를 판단했으며, SelfReflect 점수와 높은 상관관계를 보였다(ρ > 0.8).
흥미로운 부수 결과는 ‘샘플링‑피드백’ 전략이다. 모델에게 자체적으로 N=50개의 답변을 샘플링해 컨텍스트에 삽입하고, 이를 요약하도록 프롬프트하면 SelfReflect 점수가 크게 향상된다. 즉, 모델은 자체적인 확률 분포를 직접 인식하지 못하지만, 외부에서 제공된 다수 샘플을 통해 사실적인 불확실성 요약을 만들 수 있다. 이는 향후 LLM이 불확실성을 투명하게 전달하기 위한 ‘보조 메커니즘’으로 활용될 가능성을 시사한다.
기술적 기여는 크게 세 가지이다. (1) 답변 분포와 요약 문자열 사이의 정보동등성을 정량화하는 SelfReflect 메트릭을 제안하고, 이를 마스크드 토큰 기반의 예측 충분성 프레임워크와 연결하였다. (2) 다양한 최신 LLM에 대해 광범위한 실험을 수행해 현재 모델들의 자기반영 한계를 실증하였다. (3) 샘플링‑피드백 접근법이 실용적인 해결책이 될 수 있음을 입증하고, 이를 위한 공개 코드와 베이스라인을 제공한다.
전체적으로 이 연구는 LLM의 불확실성 표현을 ‘수치·단어’ 수준을 넘어 ‘분포‑요약’ 수준으로 확장하려는 첫 시도이며, SelfReflect라는 객관적인 평가 도구를 통해 향후 모델 설계·튜닝에 중요한 기준을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기