에이전트 불확실성에서 드러난 과잉 자신감

에이전트 불확실성에서 드러난 과잉 자신감
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AI 코딩 에이전트가 작업 성공 확률을 사전·중간·사후에 추정하도록 실험했으며, 모든 모델이 실제 성공률보다 크게 과대평가한다는 ‘에이전트 과잉 자신감’ 현상을 발견했다. 정보가 적은 사전 평가가 오히려 구분 능력이 높고, 버그 탐색을 유도하는 적대적 프롬프트가 캘리브레이션을 개선한다.

상세 분석

본 논문은 “에이전트 불확실성”(agentic uncertainty)을 정의하고, 동일 모델을 사용한 코딩 에이전트와 불확실성 추정 에이전트를 세 단계(사전, 중간, 사후)에서 평가한다. 사전 단계에서는 작업 설명과 읽기 전용 레포지토리만 제공되며, 중간 단계에서는 진행 중인 툴 호출·추론 흐름을 25%, 50%, 75% 시점에 노출한다. 사후 단계에서는 완성된 패치를 보고 성공 여부를 추정한다. 주요 발견은 다음과 같다. 첫째, 모든 모델(GPT‑5.2‑Codex, Gemini‑3‑Pro, Claude‑Opus)에서 평균 과잉 자신감이 3040%포인트에 달한다. 예를 들어 GPT‑5.2는 실제 성공률 35%에 비해 사후 추정 평균 73%를 보였다. 둘째, 정보가 더 많은 사후 평가보다 정보가 제한된 사전 평가가 AUROC 기준으로 39포인트 정도 더 높은 구분력을 보였으며, 이는 사후 단계에서 모델이 “보이는” 코드의 겉모습에 매몰돼 실제 난이도를 판단하지 못하기 때문이다. 셋째, 중간 단계에서는 진행 상황을 관찰하면서 자신감이 점진적으로 감소하는 “cold feet” 현상이 나타났지만, 성공·실패 사례 모두에서 감소 폭이 유사해 실제 실패를 조기에 포착하는 데는 도움이 되지 않았다. 넷째, ‘버그 찾기’(bug‑finding)라는 적대적 프롬프트를 사용한 사후 평가가 캘리브레이션 오류(ECE)를 20~35% 감소시키고, 과잉 자신감 비율을 크게 낮추었다. 다만, 이 방식은 평균 23.4개의 툴 호출을 요구해 비용이 두 배 가량 증가한다. 마지막으로, Gemini‑3‑Pro는 거의 100% 확신을 보이며 구분력이 거의 없고, 이는 모델이 불확실성을 표현하지 못하는 별도의 실패 모드임을 시사한다. 전체적으로, 에이전트가 자신의 성공 가능성을 정확히 예측하도록 만들기 위해서는 정보 제공 방식과 프롬프트 설계가 핵심이며, 현재의 자동 검증 메커니즘은 과도한 자신감으로 인해 위험할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기