경계 인식 추론으로 사실성과 신뢰성을 높이는 BARREL
초록
BARREL은 대형 추론 모델(LRM)의 과잉 사고 패턴을 분석하고, ‘마지막 순간 추측’과 ‘두 번째 생각 나선형’이라는 두 병리를 완화한다. 모델이 정답을 찾으면 간결히 결론을 내고, 모를 경우 “모르겠습니다”라고 거부하도록 훈련한다. 지식 경계 라벨링, 맞춤형 SFT 추론 트레이스 구축, 그리고 중간 수준 보상이 포함된 GRPO를 결합해 DeepSeek‑R1‑Distill‑Llama‑8B의 신뢰도(리라이어빌리티)를 39.33 %에서 61.48 %로 끌어올리면서 정확도는 기존 디스틸레이션 대비 소폭 상승한다.
상세 분석
본 논문은 최근 LRM이 수학·논리 추론에서는 뛰어난 성능을 보이지만, 사실성(factuality)과 신뢰성(reliability)에서는 여전히 큰 격차를 보인다는 문제점을 짚는다. 저자들은 “사실적 과잉 사고(factual overthinking)” 현상을 정의하고, 두 가지 구체적 병리 패턴을 제시한다. 첫 번째는 마지막 순간 추측(Last‑minute Guessing) 으로, 모델이 긴 추론 과정을 거친 뒤 마지막에 급히 답을 내놓으며, 이는 지식이 부족한 질문에 특히 빈번히 나타난다. 두 번째는 두 번째 생각 나선형(Second‑thought Spiraling) 으로, 정답을 초기에 도출했음에도 불구하고 과도한 탐색을 이어가면서 결국 정답을 포기하거나 잘못된 결론에 이른다. 이러한 패턴은 토큰 사용량 분석에서 확인되었으며, 정답을 맞춘 경우보다 틀린 경우에 더 많은 토큰을 소비한다는 점이 핵심 증거다.
이를 해결하기 위해 제안된 BARREL 프레임워크는 세 단계로 구성된다. 1) Knowledge Labeling 단계에서는 샘플링 기반 프로빙을 이용해 질문이 모델에 “known”인지 “unknown”인지 라벨링한다. 여기서는 K개의 프롬프트와 L번의 샘플링을 수행해, 하나라도 정답과 일치하면 known으로 판정한다. 2) Reasoning Trace Construction for SFT 단계에서는 라벨에 따라 두 종류의 추론 트레이스를 만든다. known 질문에 대해서는 정답과 강력한 증거(e*)를 먼저 제시하고, 대안 후보들을 비교·대조한 뒤 최종 결론을 확신 있게 제시한다. unknown 질문에 대해서는 여러 후보(y_j, e_j)를 탐색하되, 충분한 증거가 없을 경우 “Sorry, I don’t know”와 같은 불확실성 기반 거부문구를 삽입한다. 이러한 트레이스는 GPT‑4를 활용해 Long‑CoT 스타일로 자동 생성한다. 3) GRPO Stage에서는 규칙 기반 보상 함수를 도입한다. 정답이면 높은 보상 r_c, 진실된 거부이면 중간 보상 r_s, 그 외(오답·허위)이면 낮은 보상 r_w를 부여한다. 보상 크기의 순서는 r_c > r_s > r_w이며, 이는 모델이 불확실할 때 무조건 답을 내놓는 기존 RL 보상 구조와 차별화된다. 이후 Group‑wise Reinforcement Policy Optimization을 적용해 정책을 미세 조정한다. 이때 보상 정규화와 KL‑penalty를 포함해 안정적인 학습을 보장한다.
실험에서는 DeepSeek‑R1‑Distill‑Llama‑8B, DeepSeek‑R1‑Distill‑Qwen‑7B, Qwen3‑8B를 사용했으며, TriViaQA, SciQ, NQ‑Open을 학습·평가 데이터로 활용했다. 평가 지표는 정확도(Acc.), 진실성(Truthfulness), 신뢰성(Reliability)이며, 신뢰성은 정확도와 진실성을 가중 평균한 형태다. BARREL을 적용한 모델은 신뢰성이 39.33 % → 61.48 %로 크게 상승했으며, 정확도는 38.43 % → 40.7 %로 기존 디스틸레이션보다 약간 개선되었다. 또한, 중간 보상이 없을 경우 거부문구가 거의 생성되지 않아 신뢰성 향상이 제한된다는 점을 실험적으로 확인했다. 비교 실험으로는 ICL, ICL‑IDK, Vanilla GRPO, Reliability‑Enhanced GRPO 등 다양한 베이스라인을 두었으며, BARREL이 가장 높은 신뢰성·진실성을 달성함을 보여준다.
핵심 기여는 (1) 사실적 과잉 사고 현상을 정의하고 두 병리 패턴을 규명, (2) 추론 과정 자체에 경계 인식을 삽입해 “모른다”를 자연스럽게 표현하도록 하는 최초의 학습 파이프라인 제시, (3) 중간 수준 보상을 통한 불확실성 기반 거부를 강화함으로써 RL 기반 LRM의 근본적인 보상 설계 결함을 보완한 점이다. 이 연구는 System 2 수준의 추론 모델이 사실성과 신뢰성을 동시에 확보하기 위한 실용적인 로드맵을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기