분해 프롬프트, 정확도는 못 올려도 “모르겠어요”를 알려준다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대규모 언어모델(LLM)에서 질문을 직접 답하는 방식과 두 가지 분해 프롬프트(Assistive, Incremental)를 비교한다. 모델 규모가 커질수록 분해 프롬프트가 정확도 향상에 미치는 효과는 감소하지만, 서로 다른 프롬프트 간 답변 불일치는 오류를 강력히 예측한다. 이를 활용해 별도 학습이나 검색 없이 “모르겠다”라고 답하도록 하는 훈련‑무료 중단 정책(Disagreement‑Based Abstention, DBA)을 제안하고, 기존 불확실성 추정 방법보다 높은 F1·AUROC를 달성한다.

상세 분석

이 논문은 폐쇄형(클로즈드‑북) 멀티홉 QA 환경에서 LLM의 지식 한계를 탐지하는 새로운 관점을 제시한다. 기존 연구는 분해 프롬프트를 통해 추론 과정을 명시적으로 구조화함으로써 정확도를 높이는 데 초점을 맞추었지만, 저자는 동일한 질문에 대해 세 가지 프롬프트(Direct, Assistive, Incremental)를 적용해 ‘일관성(consistency)’이라는 메트릭을 도입한다. 일관성은 답변이 의미적으로 동일한지를 평가하며, 이를 위해 LLM‑as‑judge(Gemini‑2.5‑Flash)를 사용해 표면적 차이를 무시하고 의미적 동등성을 판단한다.

실험은 6개의 멀티홉 QA 벤치마크와 9개의 모델(8B~70B 파라미터 규모의 오픈소스 모델과 GPT‑5.1, Gemini‑2.5‑Pro/Flash 등 최신 클로즈드‑소스 모델)에서 수행되었다. 주요 결과는 다음과 같다.

규모와 정확도·일관성: 모델 규모가 커질수록 정확도와 일관성 모두 상승한다. 그러나 심지어 최첨단 모델에서도 평균 일관성은 60% 이하로, 동일한 질문에 대해 프롬프트에 따라 다른 답변을 내놓는 경우가 여전히 존재한다. 이는 파라미터에 내재된 지식이 완전히 논리적 불변성을 갖지 못한다는 근본적인 한계를 시사한다.
분해 프롬프트의 효용 감소: 70B 이하의 중형 모델에서는 Assistive·Incremental 프롬프트가 Direct에 비해 10~30%p 정도 정확도 향상을 보인다. 반면, Gemini‑Flash, Gemini‑Pro, GPT‑5.1 등 최신 모델에서는 이러한 이득이 거의 사라지거나 오히려 소폭 감소한다. 이는 대형 모델이 이미 내부에 복잡한 추론 체인을 학습했으며, 외부에서 강제하는 분해가 오히려 잡음이 될 수 있음을 의미한다.
불일치가 강력한 오류 신호: Direct와 분해 프롬프트 간 답변이 일치할 경우 정답일 확률이 크게 증가한다(Reliability Multiplier, RM). 규모가 큰 모델일수록 RM 값이 10배 이상, 최첨단 모델에서는 50배 이상까지 상승한다. 즉, ‘프롬프트 간 일관성’은 모델이 자신이 확신하는 답을 내놓는지를 판단하는 저비용 신호가 된다.
Disagreement‑Based Abstention (DBA): 위의 통찰을 활용해, 두 프롬프트(Direct vs. Assistive 혹은 Incremental)의 최종 답변이 다르면 모델에게 “I don’t know”를 반환하도록 설계했다. DBA는 별도 파인튜닝이나 외부 검색 없이 구현 가능하며, 기존의 자체 확신 점수 기반 방법(예: 온도 조절, 로그 확률)보다 F1 점수와 AUROC에서 일관적으로 우수했다. 특히, 고신뢰도가 요구되는 의료·법률 등 분야에서 과잉 확신을 억제하는 데 유용하다.
한계와 향후 과제: 현재는 고정된 골드‑디컴포지션(DSL)을 사용해 프롬프트 간 비교를 수행했으며, 이는 인간이 검증한 ‘정답에 가까운’ 분해이다. 자동으로 생성된 분해가 품질이 낮을 경우 일관성 신호가 약화될 수 있다. 또한, 현재는 멀티홉 QA에 국한했지만, 단일 홉 질문이나 추론이 아닌 생성 작업에도 동일한 원리가 적용될지에 대한 검증이 필요하다.

전반적으로 이 연구는 “분해 프롬프트가 정확도를 높이는 도구”에서 “모델 내부 불확실성을 드러내는 진단 도구”로 역할이 전환되는 중요한 전이를 제시한다. 모델 규모가 커질수록 내부 지식이 안정화되면서, 프롬프트 간 일관성은 신뢰성 평가의 핵심 지표가 된다.

분해 프롬프트, 정확도는 못 올려도 “모르겠어요”를 알려준다

초록

상세 분석

댓글 및 학술 토론

의견 남기기