대형 언어 모델은 자신의 능력을 아는가?

2026년 02월 04일

읽는 시간: 8 분

...

#paper #AI 요약

📝 원문 정보

- Title: Do Large Language Models Know What They Are Capable Of?
- ArXiv ID: 2512.24661
- 발행일: 2025-12-31
- 저자: Casey O. Barkan, Sid Black, Oliver Sourbut

📝 초록

LLM의 사전 예측 능력과 결정을 평가하는 세 가지 실험을 수행했습니다. 실험 결과, LLM은 일반적으로 과신하고 있으며 그들의 판별력은 무작위보다는 좋지만 완벽하지 않습니다. 또한, 특정 모델들은 경험을 통해 과신을 줄이고 더 나은 결정을 내릴 수 있는 경향이 있습니다.

💡 논문 해설

1. **LLM의 사전 예측 능력 평가**: 실험에서 LLM은 일반적으로 자신들의 성공 확률에 대해 과신하는 것으로 나타났습니다. 이를 비유하자면, 선수들이 경기 전에 자신의 승리를 너무 쉽게 보는 것과 같습니다. 2. **경험을 통한 학습 평가**: 실패와 성공의 경험을 통해 LLM은 자신들의 예측 능력을 개선할 수 있습니다. 이는 운동 선수가 다양한 경기를 거치면서 자신의 실력을 더 정확하게 인식하는 것과 비슷합니다. 3. **다중 단계 작업에서의 결정 평가**: 실험 결과, 대부분의 LLM은 다중 단계 작업을 진행함에 따라 자신들의 성공 확률 예측이 더욱 향상됩니다. 이는 장거리 여행 중에 계속해서 자신의 위치를 확인하며 목적지까지 가는 것과 유사합니다.

Sci-Tube 스타일 스크립트 (한국어)

쉬운 수준: LLM은 어떤 일을 할 때 앞서 자신들이 성공할 확률을 예측하는데, 종종 너무 자신 있어요. 하지만 경험이 쌓이면 조금 더 정확해지죠.
중간 수준: 실험 결과, LLM은 사전에 자신들의 성공 가능성을 과신하는 경향이 있습니다. 그러나 경험을 통해 이 예측 능력을 개선할 수 있었습니다.
어려운 수준: 본 연구는 LLM의 사전 확률 추정 및 결정 능력을 평가했습니다. 실험 결과, 일부 모델은 경험을 통해 과신을 줄이고 더 나은 결정을 내릴 수 있는 경향이 있습니다.

📄 논문 발췌 (ArXiv Source)

# 소개

임무 수행을 예측하는 능력은 실패가 비용이 많이 드는 상황에서 필수적입니다. 이러한 상황에서는 행동하지 않는 것을 알아야 합니다. 긴 단계와 여러 단계의 임무를 시도할 때, 임무를 수행하려고 하는 것은 비용(기회비용과 명시적인 비용 모두)이 발생합니다; 따라서 실제로 시도하기 전에 자신의 성공 확률을 정확히 예측하고 진행하면서 자신들의 예측을 업데이트하는 것이 임무를 시작하거나 계속할지 결정하는 데 중요합니다. 이는 (i) LLM의 예상 신뢰도 추정치(임무 수행 시도 전 자신의 능력을 평가), (ii) 실패 비용이 큰 임무에서 시도 결정에 대한 LLM의 예측 신뢰도, 그리고 (iii) 성공과 실패를 경험하면서 진행 중인 여러 단계의 임무에서 자신들의 신뢰도를 업데이트하는 방식을 평가하는 데 동기를 부여합니다.

LLM의 후에 발생한 신뢰도 캘리브레이션에 대한 연구는 많지만, 예측 신뢰도는 상대적으로 덜 주목받았습니다. 기존 연구들은 단일 단계 임무만 평가했으며, LLM이 경험을 통해 자신의 신뢰도 추정치를 어떻게 업데이트하는지와 그들의 예측 신뢰도가 결정에 어떤 영향을 미치는지는 여전히 열린 질문입니다. 이러한 능력과 행동을 조사하는 것은 단순히 LLM 성능뿐만 아니라 오용과 불일치로 인한 위험 평가에도 관련이 있습니다. 예를 들어, LLM 에이전트가 사이버 공격을 수행하도록 지시받았다면(예: ), 실패는 탐지될 수 있으므로 임무 시작 전에 실패할 가능성을 예측할 수 있는 에이전트의 오용 가능성은 더 높습니다.

실험 및 주요 결과 개요. **왼쪽 상단:** 단일 단계 코딩 임무에 대한 사전 신뢰도 추정치를 구하는 실험 1. **중앙:** 실험 2. LLM에게 일련의 작업 계약을 제공하고 각 계약에 대해 신뢰도 추정치와 수락/거절 결정을 요구합니다. 이전 계약, 제출 내용 및 결과는 여전히 문맥 내에 있으며, 새로운 계약을 수락할지 결정하는 데 있어 LLM은 이러한 경험을 반영할 수 있습니다. **왼쪽 하단:** 실험 3. 여러 단계 임무의 각 중간 단계에서 신뢰도 추정치를 구합니다. 표시된 프롬프트와 응답은 본문에 따로 해석됩니다. **오른쪽:** 각 실험의 주요 결과. 오른쪽 상단 그림에서는 능력 점수는 MBPP, GPQA, MMLU-Pro(수학, 법률, 공학, 건강 분야에서 각각 100개 샘플), 및 BigCodeBench에 대한 점수의 평균입니다.

우리는 LLM의 예측 신뢰도와 결정을 평가하는 세 가지 실험을 수행합니다. 실험 1은 단순한 경우를 평가합니다: 단일 단계 임무에 대한 사전 신뢰도 추정치입니다. 우리는 LLM이 BigCodeBench 벤치마크에서 제공된 단일 단계 Python 임무의 성공 확률을 예측하도록 프롬프트를 보내고 있습니다. 실험 2는 실패가 비용이 많이 드는 리소스 획득 시나리오에 LLM을 배치하고, LLM은 일련의 임무 수행 결정을 내려야 합니다. 우리는 LLM의 예측 신뢰도 추정치가 시나리오에서 경험을 통해 어떻게 개선되는지 평가합니다. 또한 LLM이 계산한 성공 확률에 따라 이성적인 결정(예상 효용 최대화와 일관된 결정)을 내리는지를 평가합니다. 실험 3은 SWE-Bench Verified 벤치마크에서 다중 단계 임무를 진행하면서 LLM이 신뢰도를 어떻게 업데이트하는지 조사합니다. SWE-Bench 작업의 각 도구 호출 후, LLM은 현재까지 진행 상황을 고려한 성공 확률을 예측하도록 프롬프트를 받으며, 우리는 임무를 수행하면서 LLM이 추정치의 정확도를 개선하는지를 평가합니다. 세 실험은 그림 1에 도식적으로 나타내어 있습니다.

세 가지 실험에서, 현재 LLM들은 일관되게 과신하지만, 무작위보다는 더 잘 구분할 수 있는 능력을 가지고 있다는 것을 발견했습니다. 이는 다른 맥락에서의 LLM 과신 및 캘리브레이션에 대한 기존 연구와 일치합니다. 우리는 또한 일반적인 능력이 높은 LLM들이 보다 잘 조정된 신뢰도나 더 좋은 판별력을 갖추지 않는 경우가 많다는 것을 발견했습니다. 게다가 많은 LLM들은 문맥 내 경험에서 배우는 데 실패하지만, Claude Sonnet 모델과 GPT 4.5는 예외로 과신을 줄이고 경험을 통해 리소스 획득 성능을 크게 향상시킵니다. 모든 LLM은 거의 이성적인 결정자임을 보여주며, 그들의 리소스 획득 시나리오에서의 성과는 주로 신뢰도 캘리브레이션에 의해 영향받습니다. 다중 단계 임무에서는 다른 경향이 나타났는데, 대부분의 OpenAI 모델은 작업을 진행함에 따라 판별력이 약간 향상되고 있지만 Claude 모델들은 판별력이 감소하고 과신이 증가하는 것을 관찰할 수 있었습니다. 우리에게는 놀랍게도, 추론 LLM들이 비추론 LLM들보다 더 나은 신뢰도 예측을 하지 않는 것으로 나타났습니다. 이러한 결과들은 현재 LLM의 능력에 대한 제한된 자기 인식이 고위험 행동을 수행할 것인지에 대한 좋은 결정을 내리는 데 영향을 미친다는 것을 시사합니다. AI 위험 관점에서 보면, 이는 여러 불일치 위험 모델에서 현재의 위험을 제한하지만, 캘리브레이션은 미래의 AI 모델에서는 급격히 개선될 수 있으므로 지속적인 평가가 중요합니다.

주요 기여를 요약하면 다음과 같습니다:

우리는 LLM의 코딩 임무에 대한 사전 신뢰도 추정치를 평가했습니다(실험 1). 새로운 및 큰 LLM은 일반적으로 더 정확한 신뢰도 추정치를 내리는 경향이 없습니다. 그러나 Claude 모델들은 사전 신뢰도 추정치를 개선하는 경향을 보였습니다.
우리는 LLM들이 과거의 성공과 실패로부터 학습하여 자신들의 신뢰도 추정치를 개선하고 어떤 임무를 시도할 것인지에 대한 결정을 내리는 데 더 나은 판단을 할 수 있는지 조사했습니다(실험 2). 여러, 그러나 모든 LLM이 아닌 일부 최신 LLM들은 과신을 줄이는 학습으로 인해 더 나은 결정을 내릴 수 있었습니다. 하지만 어떤 LLM도 과신을 완전히 개선하지는 못했습니다.
우리는 LLM들이 다중 단계 임무를 진행하면서 자신들의 신뢰도 추정치를 어떻게 업데이트하는지 조사했습니다(실험 3). 테스트한 추론 LLM들은 비추론 LLM들보다 성공을 예측하거나 추정치를 업데이트하는 데 더 나아지지 않았습니다.

실험 1: 단일 단계 임무에서 성공 예측

LLM의 BigCodeBench 임무에 대한 과신 및 판별력. **(A)** 예상 성공률 $\frac{1}{N}\sum_{i=1}^N \hat{p}_i$ (원)과 실제 성공률(별). **(B)** 과신(예상 성공률에서 실제 성공률을 뺀 값). Claude 모델의 과신은 단조롭게 감소하고 있음을 주목하십시오. **(C)** 수신자-운영자 특성 곡선(AUROC) 아래의 면적, LLM들이 수행 가능한 임무와 불가능한 임무를 구분하는 능력을 측정합니다. 오차 막대는 95% 신뢰 구간을 나타냅니다. Claude 모델들의 AUROC는 개선되는 경향이 있음을 주목하십시오. 추론 LLM들(Sonnet 3.7-4.5, Opus 4, 및 GPT 5.1)의 경우, 추론 토큰 예산을 0으로 설정하여 LLM들이 사전 신뢰도 추정치를 제공하도록 강제했습니다. Sonnet 3.5와 Haiku 3.5는 2024년 10월 22일 버전입니다.

우리는 먼저 LLM이 임무에 시도하기 전에 자신의 성공을 얼마나 정확하게 예측하는지 조사합니다. BigCodeBench(BCB) 데이터셋(1,140개의 Python 코딩 임무로 구성됨)에서 각 임무 $`i`$에 대해 LLM에게 자신이 성공할 확률 $`\hat{p}_i`$를 예측하도록 프롬프트를 보냅니다. 별도로, LLM에게 임무를 수행하여 그들이 성공하는지를 결정하도록 프롬프트를 보냅니다. 우리는 세 가지 계열의 LLM(Llama, GPT, 및 Claude)을 평가하고 각 계열 내에서 추세를 조사합니다. 프롬프트는 부록 8에 제공됩니다. 단일 단계 임무를 사용하기 때문에, 우리는 비추론 LLM과 추론 토큰 예산을 0으로 설정한 추론 LLM만 평가합니다. 이는 추론 LLM이 숨겨진 사고 체인에서 전체 단일 단계 임무를 해결하여 사전 신뢰도 추정치를 얻지 못하기 때문입니다. 우리는 실험 3에서 다중 단계 임무에 대한 추론 LLM을 평가합니다.

모든 테스트된 LLM은 과신합니다. 그림 2A에서는 LLM의 예상 성공률 $`\frac{1}{N}\sum_{i=1}^N\hat{p}_i`$와 실제 성공률(올바르게 해결된 임무의 비율)을 보여주며, 모든 LLM이 자신의 성공률을 과대평가하고 있음을 나타냅니다. 그림 2B에서는 예상 성공률에서 실제 성공률을 뺀 값으로 표현되는 과대평가 정도를 보여줍니다. 그래프에서 각 계열 내의 LLM은 합성 능력 벤치마크(그림 1 캡션에 정의됨) 성능에 따라 순서대로 배열되어 있으며, 일반 능력을 높이면서 추세를 설명합니다. Claude 모델들은 과신을 줄이는 경향을 보이고 있지만, Llama와 GPT 모델은 어떠한 추세도 나타내지 않습니다.

테스트된 대부분의 LLM은 무작위보다는 더 나은 능력을 가지고 있습니다. 판별력은 수신자-운영자 특성(ROC) 곡선 아래 면적(AUROC)으로 측정되며, 성공적으로와 실패로 해결된 임무의 $`\hat{p}_i`$ 분포 사이의 구분을 측정합니다. AUROC 값은 그림 2C에서 보여지며, AUROC=0.5는 무작위 기준선(점선)입니다. 대부분의 Claude 모델들은 여러 Llama와 GPT 모델보다 낮은 AUROC 값을 가집니다만, Claude 모델들만 AUROC를 개선하는 경향을 보이고 있습니다.

실험 2: 성공과 실패의 문맥 내 경험에서 학습하기

다음으로 우리는 성공과 실패의 문맥 내 경험들이 어떻게 사전 신뢰도와 결정에 영향을 미치는지 조사합니다. 이 실험에서는 LLM이 여러 단계 리소스 획득 시나리오에 배치되며, 일련의 리소스 획득 기회를 제시받습니다. 각 기회는 BigCodeBench 임무를 해결하기 위한 작업 계약으로서, 만약 LLM이 계약을 수락하면 성공 시 $1, 실패 시 -$1의 보상/벌금을 받게 됩니다. 실험의 각 시도에서 LLM은 9개의 계약을 순차적으로 제시받으며, 모든 이전 계약은 여전히 문맥 내에 있습니다(계약 제안, LLM의 결정 및 계약을 수락한 경우 LLM의 제출 내용과 결과 포함). 새 계약은 LLM이 임무를 해결할 가능성이 50%인 것 중에서 선택되므로, 모든 계약을 수락하거나 거절하면 예상 이익은 0입니다. 우리는 $`M=512`$ 시도의 9개 계약 시퀀스를 실행하며, 동일한 512개의 계약 시퀀스를 모든 LLM에 사용합니다(두 가지 예외[^2] 제외). 부록

ArXiv 원문 PDF 보기