대형 언어 모델은 자신의 능력을 아는가?

읽는 시간: 8 분
...

📝 원문 정보

- Title: Do Large Language Models Know What They Are Capable Of?
- ArXiv ID: 2512.24661
- 발행일: 2025-12-31
- 저자: Casey O. Barkan, Sid Black, Oliver Sourbut

📝 초록

LLM의 사전 예측 능력과 결정을 평가하는 세 가지 실험을 수행했습니다. 실험 결과, LLM은 일반적으로 과신하고 있으며 그들의 판별력은 무작위보다는 좋지만 완벽하지 않습니다. 또한, 특정 모델들은 경험을 통해 과신을 줄이고 더 나은 결정을 내릴 수 있는 경향이 있습니다.

💡 논문 해설

1. **LLM의 사전 예측 능력 평가**: 실험에서 LLM은 일반적으로 자신들의 성공 확률에 대해 과신하는 것으로 나타났습니다. 이를 비유하자면, 선수들이 경기 전에 자신의 승리를 너무 쉽게 보는 것과 같습니다. 2. **경험을 통한 학습 평가**: 실패와 성공의 경험을 통해 LLM은 자신들의 예측 능력을 개선할 수 있습니다. 이는 운동 선수가 다양한 경기를 거치면서 자신의 실력을 더 정확하게 인식하는 것과 비슷합니다. 3. **다중 단계 작업에서의 결정 평가**: 실험 결과, 대부분의 LLM은 다중 단계 작업을 진행함에 따라 자신들의 성공 확률 예측이 더욱 향상됩니다. 이는 장거리 여행 중에 계속해서 자신의 위치를 확인하며 목적지까지 가는 것과 유사합니다.

Sci-Tube 스타일 스크립트 (한국어)

  • 쉬운 수준: LLM은 어떤 일을 할 때 앞서 자신들이 성공할 확률을 예측하는데, 종종 너무 자신 있어요. 하지만 경험이 쌓이면 조금 더 정확해지죠.
  • 중간 수준: 실험 결과, LLM은 사전에 자신들의 성공 가능성을 과신하는 경향이 있습니다. 그러나 경험을 통해 이 예측 능력을 개선할 수 있었습니다.
  • 어려운 수준: 본 연구는 LLM의 사전 확률 추정 및 결정 능력을 평가했습니다. 실험 결과, 일부 모델은 경험을 통해 과신을 줄이고 더 나은 결정을 내릴 수 있는 경향이 있습니다.

📄 논문 발췌 (ArXiv Source)

# 소개

임무 수행을 예측하는 능력은 실패가 비용이 많이 드는 상황에서 필수적입니다. 이러한 상황에서는 행동하지 않는 것을 알아야 합니다. 긴 단계와 여러 단계의 임무를 시도할 때, 임무를 수행하려고 하는 것은 비용(기회비용과 명시적인 비용 모두)이 발생합니다; 따라서 실제로 시도하기 전에 자신의 성공 확률을 정확히 예측하고 진행하면서 자신들의 예측을 업데이트하는 것이 임무를 시작하거나 계속할지 결정하는 데 중요합니다. 이는 (i) LLM의 예상 신뢰도 추정치(임무 수행 시도 전 자신의 능력을 평가), (ii) 실패 비용이 큰 임무에서 시도 결정에 대한 LLM의 예측 신뢰도, 그리고 (iii) 성공과 실패를 경험하면서 진행 중인 여러 단계의 임무에서 자신들의 신뢰도를 업데이트하는 방식을 평가하는 데 동기를 부여합니다.

LLM의 에 발생한 신뢰도 캘리브레이션에 대한 연구는 많지만, 예측 신뢰도는 상대적으로 덜 주목받았습니다. 기존 연구들은 단일 단계 임무만 평가했으며, LLM이 경험을 통해 자신의 신뢰도 추정치를 어떻게 업데이트하는지와 그들의 예측 신뢰도가 결정에 어떤 영향을 미치는지는 여전히 열린 질문입니다. 이러한 능력과 행동을 조사하는 것은 단순히 LLM 성능뿐만 아니라 오용과 불일치로 인한 위험 평가에도 관련이 있습니다. 예를 들어, LLM 에이전트가 사이버 공격을 수행하도록 지시받았다면(예: ), 실패는 탐지될 수 있으므로 임무 시작 전에 실패할 가능성을 예측할 수 있는 에이전트의 오용 가능성은 더 높습니다.

/>
실험 및 주요 결과 개요. 왼쪽 상단: 단일 단계 코딩 임무에 대한 사전 신뢰도 추정치를 구하는 실험 1. 중앙: 실험 2. LLM에게 일련의 작업 계약을 제공하고 각 계약에 대해 신뢰도 추정치와 수락/거절 결정을 요구합니다. 이전 계약, 제출 내용 및 결과는 여전히 문맥 내에 있으며, 새로운 계약을 수락할지 결정하는 데 있어 LLM은 이러한 경험을 반영할 수 있습니다. 왼쪽 하단: 실험 3. 여러 단계 임무의 각 중간 단계에서 신뢰도 추정치를 구합니다. 표시된 프롬프트와 응답은 본문에 따로 해석됩니다. 오른쪽: 각 실험의 주요 결과. 오른쪽 상단 그림에서는 능력 점수는 MBPP, GPQA, MMLU-Pro(수학, 법률, 공학, 건강 분야에서 각각 100개 샘플), 및 BigCodeBench에 대한 점수의 평균입니다.

우리는 LLM의 예측 신뢰도와 결정을 평가하는 세 가지 실험을 수행합니다. 실험 1은 단순한 경우를 평가합니다: 단일 단계 임무에 대한 사전 신뢰도 추정치입니다. 우리는 LLM이 BigCodeBench 벤치마크에서 제공된 단일 단계 Python 임무의 성공 확률을 예측하도록 프롬프트를 보내고 있습니다. 실험 2는 실패가 비용이 많이 드는 리소스 획득 시나리오에 LLM을 배치하고, LLM은 일련의 임무 수행 결정을 내려야 합니다. 우리는 LLM의 예측 신뢰도 추정치가 시나리오에서 경험을 통해 어떻게 개선되는지 평가합니다. 또한 LLM이 계산한 성공 확률에 따라 이성적인 결정(예상 효용 최대화와 일관된 결정)을 내리는지를 평가합니다. 실험 3은 SWE-Bench Verified 벤치마크에서 다중 단계 임무를 진행하면서 LLM이 신뢰도를 어떻게 업데이트하는지 조사합니다. SWE-Bench 작업의 각 도구 호출 후, LLM은 현재까지 진행 상황을 고려한 성공 확률을 예측하도록 프롬프트를 받으며, 우리는 임무를 수행하면서 LLM이 추정치의 정확도를 개선하는지를 평가합니다. 세 실험은 그림 1에 도식적으로 나타내어 있습니다.

세 가지 실험에서, 현재 LLM들은 일관되게 과신하지만, 무작위보다는 더 잘 구분할 수 있는 능력을 가지고 있다는 것을 발견했습니다. 이는 다른 맥락에서의 LLM 과신 및 캘리브레이션에 대한 기존 연구와 일치합니다. 우리는 또한 일반적인 능력이 높은 LLM들이 보다 잘 조정된 신뢰도나 더 좋은 판별력을 갖추지 않는 경우가 많다는 것을 발견했습니다. 게다가 많은 LLM들은 문맥 내 경험에서 배우는 데 실패하지만, Claude Sonnet 모델과 GPT 4.5는 예외로 과신을 줄이고 경험을 통해 리소스 획득 성능을 크게 향상시킵니다. 모든 LLM은 거의 이성적인 결정자임을 보여주며, 그들의 리소스 획득 시나리오에서의 성과는 주로 신뢰도 캘리브레이션에 의해 영향받습니다. 다중 단계 임무에서는 다른 경향이 나타났는데, 대부분의 OpenAI 모델은 작업을 진행함에 따라 판별력이 약간 향상되고 있지만 Claude 모델들은 판별력이 감소하고 과신이 증가하는 것을 관찰할 수 있었습니다. 우리에게는 놀랍게도, 추론 LLM들이 비추론 LLM들보다 더 나은 신뢰도 예측을 하지 않는 것으로 나타났습니다. 이러한 결과들은 현재 LLM의 능력에 대한 제한된 자기 인식이 고위험 행동을 수행할 것인지에 대한 좋은 결정을 내리는 데 영향을 미친다는 것을 시사합니다. AI 위험 관점에서 보면, 이는 여러 불일치 위험 모델에서 현재의 위험을 제한하지만, 캘리브레이션은 미래의 AI 모델에서는 급격히 개선될 수 있으므로 지속적인 평가가 중요합니다.

주요 기여를 요약하면 다음과 같습니다:

  • 우리는 LLM의 코딩 임무에 대한 사전 신뢰도 추정치를 평가했습니다(실험 1). 새로운 및 큰 LLM은 일반적으로 더 정확한 신뢰도 추정치를 내리는 경향이 없습니다. 그러나 Claude 모델들은 사전 신뢰도 추정치를 개선하는 경향을 보였습니다.
  • 우리는 LLM들이 과거의 성공과 실패로부터 학습하여 자신들의 신뢰도 추정치를 개선하고 어떤 임무를 시도할 것인지에 대한 결정을 내리는 데 더 나은 판단을 할 수 있는지 조사했습니다(실험 2). 여러, 그러나 모든 LLM이 아닌 일부 최신 LLM들은 과신을 줄이는 학습으로 인해 더 나은 결정을 내릴 수 있었습니다. 하지만 어떤 LLM도 과신을 완전히 개선하지는 못했습니다.
  • 우리는 LLM들이 다중 단계 임무를 진행하면서 자신들의 신뢰도 추정치를 어떻게 업데이트하는지 조사했습니다(실험 3). 테스트한 추론 LLM들은 비추론 LLM들보다 성공을 예측하거나 추정치를 업데이트하는 데 더 나아지지 않았습니다.

관련 연구

이전의 연구에서는 LLM과 인간 모두가 단일 단계 개방형 질문에 대한 사전 신뢰도 추정치를 평가했습니다. 인간과 LLM의 트리비아 문제 및 손으로 그린 그림 해석을 포함한 질문에 대한 사후 및 사전 신뢰도 추정치를 측정하여, LLM의 예측 정확성은 일반적으로 인간의 정확성과 동등하거나 더 좋다는 것을 발견했습니다. 실험에서 관찰된 LLM의 정확성도 코딩 임무에 대해 비슷한 수준이었습니다. 여러 선택지 문제에 대한 LLM의 사전 신뢰도 추정치를 인간 심리학 문헌과 비교하여, LLM의 캘리브레이션은 작업 난이도에 따른 민감도가 인간보다 적다는 것을 발견했습니다. 또한 실험에서 많은 LLM들이 다중 단계 임무를 진행함에 따라 점점 더 과신하게 된다는 우리의 결과와 일치합니다.

최근 논문에서는 과거의 성공과 실패에 대한 문맥 정보가 캘리브레이션을 향상시키는지 조사했습니다. 그들의 작업은 우리 실험 2와 유사하지만, 우리는 이러한 문맥 경험들이 LLM의 결정 및 리소스 획득 시나리오에서의 수익성에 어떻게 영향을 미치는지를 조사합니다.

많은 연구가 다양한 맥락에서 LLM의 신뢰도 추정치 캘리브레이션을 조사했습니다. 이전 작업에서는 코드 생성이 신뢰할 수 있는지 평가하기 위해 사후 및 토큰 단위 캘리브레이션을 수행했습니다. 또한, LLM들이 ‘어떤 것을 아는지’를 알아내기 위한 많은 연구가 있었으며, 종종 LLM 환상의 완화에 초점을 맞추고 있습니다. 이에는 토큰 확률의 캘리브레이션이 포함되어 있으며, 이는 전통적인 신경망에서 수행된 캘리브레이션 실험과 직접적으로 유사합니다. 또한 LLM들의 구어형 신뢰도 추정치(사후 및 사전 추정)의 캘리브레이션도 포함됩니다. 환상 완화를 위한 추가 연구는 LLM의 과신 및 불확실성 정량화를 조사했습니다. 환상을 완화하기 위한 한 가지 방법은 LLM이 확신할 때만 질문에 답하도록 훈련하는 것입니다.

LLM들의 자기 지식에 대한 다양한 형태도 이전 연구에서 조사되었습니다. LLM들이 자신과 다른 엔티티와의 관계에 대해 무엇을 알고 있는지, 그리고 특정 상황에서 어떻게 행동할 것인지 예측할 수 있는지를 조사했습니다. 또한 LLM들에게 특정 행동 특성을 갖도록 훈련하고 이러한 LLM들이 이러한 특성들을 표현하는 지 평가했습니다.

불확실한 상황과 위험 선호에 대한 LLM의 결정도 이전에 연구되었습니다. LLM들은 일반적으로 위험을 회피하며, 때때로 인간보다 더 이성적인 결정자를 보여주지만 여전히 인간 인지 편향성을 나타냅니다.

실험 1: 단일 단계 임무에서 성공 예측

/>
LLM의 BigCodeBench 임무에 대한 과신 및 판별력. (A) 예상 성공률 $\frac{1}{N}\sum_{i=1}^N \hat{p}_i$ (원)과 실제 성공률(별). (B) 과신(예상 성공률에서 실제 성공률을 뺀 값). Claude 모델의 과신은 단조롭게 감소하고 있음을 주목하십시오. (C) 수신자-운영자 특성 곡선(AUROC) 아래의 면적, LLM들이 수행 가능한 임무와 불가능한 임무를 구분하는 능력을 측정합니다. 오차 막대는 95% 신뢰 구간을 나타냅니다. Claude 모델들의 AUROC는 개선되는 경향이 있음을 주목하십시오. 추론 LLM들(Sonnet 3.7-4.5, Opus 4, 및 GPT 5.1)의 경우, 추론 토큰 예산을 0으로 설정하여 LLM들이 사전 신뢰도 추정치를 제공하도록 강제했습니다. Sonnet 3.5와 Haiku 3.5는 2024년 10월 22일 버전입니다.

우리는 먼저 LLM이 임무에 시도하기 전에 자신의 성공을 얼마나 정확하게 예측하는지 조사합니다. BigCodeBench(BCB) 데이터셋(1,140개의 Python 코딩 임무로 구성됨)에서 각 임무 $`i`$에 대해 LLM에게 자신이 성공할 확률 $`\hat{p}_i`$를 예측하도록 프롬프트를 보냅니다. 별도로, LLM에게 임무를 수행하여 그들이 성공하는지를 결정하도록 프롬프트를 보냅니다. 우리는 세 가지 계열의 LLM(Llama, GPT, 및 Claude)을 평가하고 각 계열 내에서 추세를 조사합니다. 프롬프트는 부록 8에 제공됩니다. 단일 단계 임무를 사용하기 때문에, 우리는 비추론 LLM과 추론 토큰 예산을 0으로 설정한 추론 LLM만 평가합니다. 이는 추론 LLM이 숨겨진 사고 체인에서 전체 단일 단계 임무를 해결하여 사전 신뢰도 추정치를 얻지 못하기 때문입니다. 우리는 실험 3에서 다중 단계 임무에 대한 추론 LLM을 평가합니다.

모든 테스트된 LLM은 과신합니다. 그림 2A에서는 LLM의 예상 성공률 $`\frac{1}{N}\sum_{i=1}^N\hat{p}_i`$와 실제 성공률(올바르게 해결된 임무의 비율)을 보여주며, 모든 LLM이 자신의 성공률을 과대평가하고 있음을 나타냅니다. 그림 2B에서는 예상 성공률에서 실제 성공률을 뺀 값으로 표현되는 과대평가 정도를 보여줍니다. 그래프에서 각 계열 내의 LLM은 합성 능력 벤치마크(그림 1 캡션에 정의됨) 성능에 따라 순서대로 배열되어 있으며, 일반 능력을 높이면서 추세를 설명합니다. Claude 모델들은 과신을 줄이는 경향을 보이고 있지만, Llama와 GPT 모델은 어떠한 추세도 나타내지 않습니다.

테스트된 대부분의 LLM은 무작위보다는 더 나은 능력을 가지고 있습니다. 판별력은 수신자-운영자 특성(ROC) 곡선 아래 면적(AUROC)으로 측정되며, 성공적으로와 실패로 해결된 임무의 $`\hat{p}_i`$ 분포 사이의 구분을 측정합니다. AUROC 값은 그림 2C에서 보여지며, AUROC=0.5는 무작위 기준선(점선)입니다. 대부분의 Claude 모델들은 여러 Llama와 GPT 모델보다 낮은 AUROC 값을 가집니다만, Claude 모델들만 AUROC를 개선하는 경향을 보이고 있습니다.

실험 2: 성공과 실패의 문맥 내 경험에서 학습하기

다음으로 우리는 성공과 실패의 문맥 내 경험들이 어떻게 사전 신뢰도와 결정에 영향을 미치는지 조사합니다. 이 실험에서는 LLM이 여러 단계 리소스 획득 시나리오에 배치되며, 일련의 리소스 획득 기회를 제시받습니다. 각 기회는 BigCodeBench 임무를 해결하기 위한 작업 계약으로서, 만약 LLM이 계약을 수락하면 성공 시 $1, 실패 시 -$1의 보상/벌금을 받게 됩니다. 실험의 각 시도에서 LLM은 9개의 계약을 순차적으로 제시받으며, 모든 이전 계약은 여전히 문맥 내에 있습니다(계약 제안, LLM의 결정 및 계약을 수락한 경우 LLM의 제출 내용과 결과 포함). 새 계약은 LLM이 임무를 해결할 가능성이 50%인 것 중에서 선택되므로, 모든 계약을 수락하거나 거절하면 예상 이익은 0입니다. 우리는 $`M=512`$ 시도의 9개 계약 시퀀스를 실행하며, 동일한 512개의 계약 시퀀스를 모든 LLM에 사용합니다(두 가지 예외[^2] 제외). 부록


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키