통찰의 착시 추론 모델 속 진실

읽는 시간: 5 분
...

📝 원문 정보

- Title: The Illusion of Insight in Reasoning Models
- ArXiv ID: 2601.00514
- 발행일: 2026-01-02
- 저자: Liv G. d Aliberti, Manoel Horta Ribeiro

📝 초록

본 논문에서는 강화학습을 통해 미세 조정된 언어 모델에서 "아하!" 순간이 나타나는지와 그 영향력을 분석합니다. 이러한 순간은 모델이 중간에 자가 수정을 하는 것으로, 이 연구에서는 이를 체계적으로 조사하고자 합니다.

💡 논문 해설

1. **정의 및 프레임워크:** "아하!" 순간이라는 개념을 측정 가능한 중간 추론 변화로 정의하고, 강화학습 미세 조정 동안 내재적 자가 수정을 연구하기 위한 실험 프레임워크를 도입합니다. 2. **대규모 경험적 특성화:** 다양한 영역, 온도, 학습 단계, 모델 패밀리에 걸친 100만 개 이상의 추론 경로에서, 추론 변화가 드물고 일반적으로 정확도가 낮아짐을 보여주어 진정한 통찰력이 아니라는 견해를 도전합니다. 3. **개입:** 불확실성에 따른 재고려를 유발하는 개입 방법을 개발하여 측정 가능한 정확도 향상을 이룹니다.

📄 논문 발췌 (ArXiv Source)

# 서론

구두 전래의 증거는 강화학습을 통해 미세 조정된 언어 모델이 “아하!” 순간—인간 문제 해결과 유사한 통찰력의 표현을 가질 수 있음을 암시합니다. 예를 들어, 정답을 따르는 중간 추론 단계에서 *“잠깐… 단계별로 다시 평가해보자”*와 같은 신호가 나타납니다. 그럼에도 불구하고 이러한 사건의 본성, 빈도 및 영향력(Fig. 1)은 명확하지 않습니다.

“Aha!” 순간의 존재는 추론 모델이 외부 피드백 없이 내재적으로 자가 수정할 수 있는지에 대한 문제와 연결됩니다. 즉, 중간 응답에서 추론을 수정하는 능력입니다. 모델 개선은 보통 검증기, 보상 쿼리, 프롬프트 기법 또는 외부 도구 등과 같은 외부적 메커니즘으로부터 발생합니다. 반면에 내재적인 자가 향상은 추론 경로를 통해 추론해야 하며 안전성 측면에서 더 중요하다고 주장될 수 있습니다.

/>
“Aha!” 순간의 해부학. 우리는 에서 설명한 “Aha!” 순간을 그림으로 표현합니다: 단일 추론 경로 내에서 "잠깐... 다시 평가해보자"와 같은 신호는 처음 실패하는 전략(k ∈ {1, 2})에서 정답을 얻는 전략으로의 변화(k = 3)를 나타냅니다. 그림은 우리의 방법론도 예고합니다: 우리는 "Aha!" 순간을 체계적으로 GRPO-튜닝하고 Qwen2.5와 Llama 모델의 추론 경로를 주석 처리함으로써 연구합니다.

추론 변화의 영향력을 연구하는 것은 어렵습니다. 먼저, 이러한 사건은 훈련 중에 발생할 수 있지만 평가가 일반적으로 훈련 후에 이루어집니다. 두 번째로, 추론 모델은 훈련 중간 체크포인트를 거의 공개하지 않기 때문에 전체적인 훈련 주기를 통한 분석이 제한됩니다. 세 번째로, 변화가 관찰되더라도 중간 추론 변화를 일반 능력이나 기억에 귀속시키는 것은 체계적으로 제어된 비교가 필요합니다. 이러한 간극은 추론 변화가 진정한 통찰력을 반영하는지 체계적인 조사의 필요성을 동기화합니다.

현재 연구: 여기서 우리는 중간 추론 변화(예: “잠깐… 다시 평가해보자”)가 추론 모델에서 내재적 자가 수정을 신호하는지 연구합니다. 우리의 연구는 세 가지 질문에 의해 안내됩니다:

RQ1: 추론 변화가 모델 정확도를 높이는가?

RQ2: 추론 변화의 효과는 훈련 단계와 디코딩 온도에 어떻게 영향을 받는가?

RQ3: 추론 모델이 불확실할 때 추론 변화가 더 효과적인가?

이를 위해, 우리는 (i) “Aha!” 순간을 측정 가능한 중간 추론 변화로 정의하고 모델이 이전에 해결하지 못한 문제에서 성능을 향상시킵니다(Fig. 2; §3); (ii) 다양한 평가 세트를 정리합니다(§4)은 암호화 크로스워드, 수학 문제 해결(MATH-500), 러시아워 퍼즐을 포함하고; (iii) Qwen2.5와 Llama 모델의 추론 경로를 GRPO-튜닝 및 주석 처리합니다(§5).

우리의 분석은 3개 도메인, 4개 온도, 2개 모델 크기, 그리고 2개 모델 아키텍처에 걸친 수백 개의 체크포인트 평가(10-20개 이상)를 통해 $`1`$M+ 주석 처리된 추론 경로를 포함하고 있어 RL 미세 조정 중에 중간 추론이 어떻게 진화하는지의 장기적인 관점을 제공합니다. 이 설정을 통해 우리는 변화 행동을 정확성과 토큰 수준 불확실성 신호에 연결합니다.

우리의 결과는 추론 변화가 드물며(전체적으로 $`\sim`$6.31%의 경로) 일반적으로 모델 정확도를 높이지 않는다는 것을 보여줍니다(RQ1). 또한 그들의 영향력은 훈련 단계에 따라 신뢰할 수 없게 기호가 바뀌지만, 디코딩 온도에 따라 크게 달라집니다(RQ2). 마지막으로, 자발적으로 발생하는 변화는 높은 불확실성에서 일관되게 유용하지 않다는 것을 발견했습니다. 그러나 외부적으로 유발된 고 엔트로피 상태에서의 재고려는 MATH-500에 +8.41pp 개선을 포함한 벤치마크 전체에서 정확도를 향상시킵니다(RQ3). 우리의 결과는 데이터셋, 프롬프트 및 모델 패밀리에 걸쳐 견고합니다.

기여: 우리는 세 가지 핵심 기여를 합니다:

  1. 정의 & 프레임워크: “Aha!” 순간을 측정 가능한 중간 추론 변화로 정의하고 강화학습 미세 조정 동안 내재적 자가 수정을 연구하기 위한 실험 프레임워크를 도입합니다.
  2. 대규모 경험적 특성화: 다양한 영역, 온도, 학습 단계 및 모델 패밀리에 걸친 100만 개 이상의 추론 경로에서 추론 변화가 드물고 일반적으로 정확도가 낮아짐을 보여주어 진정한 통찰력이 아니라는 견해를 도전합니다.
  3. 개입: 모델이 불확실할 때 재고려를 유발하는 엔트로피-게이트된 개입 방법을 개발하여 측정 가능한 정확도 향상을 이룹니다.

관련 연구

현저한 능력: 대형 언어 모델은 종종 척도에 따라 새롭게 능력을 갑자기 획득하는 것처럼 보이지만, 이러한 변화가 내재적인 인지 변화를 반영하는지 아니면 평가의 부산물인지는 여전히 논란 중입니다. “현저한"으로 표시된 많은 행동은 구조화된 프롬프트—예를 들어 사고 체인, 제로샷 쿠 “단계별로 생각해봅시다”, 또는 Least-to-Most 프롬프팅과 같은 외부적 지지 아래에서만 나타납니다. SFT, RLHF 및 GRPO와 같은 최적화 방법은 이러한 외부적으로 유발된 행동을 강화하며 내재적인 능력 향상의 모습을 증폭시킬 수 있습니다.

자가 수정과 “Aha!” 순간: 추론 모델에서 자가 수정은 검증기 모델이나 도구 호출과 같은 외부적 메커니즘을 통해 발생하거나 외부 개입 없이 발생하는 내재적 변화를 통해 발생할 수 있습니다. 최근 연구는 이러한 동태를 조사했으며, 학습된 자가 수정 프레임워크와 반복 정제 벤치마크, 중간 추론 조정 분석을 포함합니다. DeepSeek-R1과 같은 모델에 대한 연구는 보상 최적화가 내재적인 반영 유사한 부산물을 유발할 수 있음을 나타냅니다. 그러나 다른 작업들은 관찰된 추론 변화가 진정한 통찰력인지 표면적인 자기 반성인지를 의심합니다. 그럼에도 불구하고, RL 학습 모델이 RL 미세 조정 동안 진정한 내재적 “Aha!” 스타일의 자가 수정을 나타내는지 체계적으로 평가하는 것은 없으며 이러한 변화가 체크포인트와 디코딩 환경을 통해 추적되었을 때 일관되게 정확성을 향상시키는지는 여전히 확인되지 않았습니다.

통찰력 특성화: 인지 심리학에서 통찰력은 문제 공간의 갑작스러운 재구조화로 정의되며, 침팬지가 바나나를 먹기 위해 상자를 쌓는 것과 같은 예로 설명됩니다. 최근 연구에서는 추론 모델에서 유사한 현상을 찾아보려고 합니다: 중간 추론 경로 내의 불확실성 피크—때때로 “GESTALT 재중심화"라고 묘사되는 것—이 추론 전략 변화와 관련되어 있습니다. RASM과 같은 지표는 진정한 통찰력의 언어적 또는 불확실성 기반 서명을 식별하려고 하지만, 일부 설정에서는 표면적인 주저를 통찰력으로 잘못 분류하는 비율이 높습니다(최대 30%). 이러한 제한은 진정한 재구조화와 표면적인 반성을 구분하기 위한 엄격한 기준을 필요로 합니다.

안전성, 신뢰성 및 정합성: 투명한 추론 경로는 정합성과 충실도에 중심적입니다. 모델의 출력뿐만 아니라 이를 생성하는 과정까지 인간이 감시할 수 있기 때문입니다. 자가 수정이 감독 없이 발생하면 사용자를 오도할 수 있는 숨겨진 목표 변화나 속임수적인 이유를 제기하여 우려를 낳을 수 있습니다. 중간 추론 단계를 보상하는 과정 감시는 수학 문제 해결 작업에서 성능과 해석성을 모두 향상시키는 것으로 나타났습니다. 이를 보완하여 불확실성에 인식적인 방법은 모델이 신뢰할 수 없는 추론을 탐지하고 대응하도록 돕고, 이로써 견고성과 신뢰도를 높입니다. 중간 추론 변화가 진정한 수정인지 불확실성으로 인한 부산물인지를 이해하는 것은 따라서 추론 모델의 안전성 및 신뢰성을 평가하기에 직접적으로 관련됩니다.

“Aha!” 순간 정의화

우리는 “Aha!” 순간을 모델이 초기 추론 전략을 포기하고 성능을 향상시키는 질적으로 다른 전략을 채택하는 모델 사고 체인 내에서 이산적인 점으로 정의합니다. 이를 아래와 같이 공식화합니다.

$`\{f_{\theta_k}\}_{k=0}^K`$를 체크포인트된 추론 모델 시퀀스로 나타내자. 체크포인트 $`k`$에서 모델은 토큰 행동 $`a_t \in \mathcal{V}`$에 대한 정책 $`\pi_{\theta_k}(a_t \mid a_{

MATH
P_{\theta_k}(\checkmark \mid q_j) = \mathbb{E}_{\tau \sim \pi_{\theta_k}}[R(\tau)]
클릭하여 더 보기

$`S_{q_j,k}(\tau) \in \{0,1\}`$는 체크포인트 $`k`$에서 샘플링된 경로 $`\tau`$에 중간 추론 변화가 발생하는지 나타냅니다. 이 이진 레이블은 우리의 변화 감지 파이프라인이 생성하며, 추론 전략의 어휘적 및 구조적 변화를 식별합니다(상세 내용은 App. 11.1). $`P(S_{q_j,k}=1)`$는 샘플링된 경로가 감지된 변화를 포함할 확률(즉, $`\tau \sim \pi_{\theta_k}`$)을 나타냅니다.

정의 1 (“Aha!” 순간). $`\delta_1,\delta_2,\delta_3 \in [0,1]`$를 사전 실패, 사전 안정성 및 필요한 성능 향상에 대한 임계값으로 나타내자. “Aha!” 순간이 $`(q_j,k)`$에서 발생하는 경우:

  1. $`\forall i < k,\; P_{\theta_i}(\checkmark \mid q_j) < \delta_1`$ (사전 실패),
  2. $`\forall i < k,\; P(S_{q_j,i}=1) < \delta_2`$ (사전 안정성),
  3. $`P_{\theta_k}(\checkmark \mid q_j, S_{q_j,k}=1) - P_{\theta_k}(\checkmark \mid q_j) > \delta_3`$ (성능 향상).

간단히 말해, 체크포인트 $`k`$가 문제 $`q_j`$에 대한 “Aha!” 순간으로 분류되는 조건은 다음과 같습니다: (1) 이전 모든 체크포인트에서 일관되게 실패(사전 실패), (2) 이전 체크포인트에서 중간 추론 변화의 증거가 거의 없음(사전 안정성), 그리고 (3) 체크포인트 $`k`$에서 감지된 변화를 포함하는 경로가 전체 경로보다 엄격히 더 높은 정확도를 나타냄(성능 향상).[^2] 이러한 조건들은 검출된 변화가 *신선하고 유익하다는 것을 보장하여 표면적 또는 잡음 변동이 통찰력과 같은 사건으로 카운트되지 않도록 합니다. Figure 2은 이 동작을 시각화합니다. Algorithm [alg:aha-moment] in App. 11.1 formalizes the detection procedure.

/>
"Aha!" 순간의 운영적 정의 다이어그램. 고정된 문제 qj(수평축: 체크포인트 인덱스 i)에 대해, 그림은 정의 1에서 제시된 세 가지 기준을 시각화합니다. (1) *사전 실패*: 경험적 정확도 θi(✓ ∣ qj)는 모든 체크포인트 i < k에서 δ1 아래에 유지됩니다. (2) *사전 안정성*: 변화율 π̂i = Pr [Sqj, i = 1]은 모든 i < k에서 δ2 아래에 유지됩니다. (3) *성능 향상*: 체크포인트 k에서 감지된 변화가 있는 경로(빨강)의 정확도는 모든 경로(검정)보다 δ3 이상 높습니다.
/>
세 가지 추론 렌즈와 예시 인스턴스. 각 행은 하나의 평가 도메인을 표시하고 §4에서 소개된 세 가지 “추론 렌즈”를 어떻게 구현하는지 보여줍니다. *왼쪽 (표현 변화):* 암호화 Xwords 단서와 정의, 그리고 단어 연기; 변화는 단서 재해석(예: 애너그램에서 찰라드나 숨겨진 단어로 전환)에 해당합니다. *가운데 (진행 모니터링):* 명시적인 사고 체인과 검사를 갖춘 수학 문제; 변화는 일관되지 않은 유도를 포기하고 새로운 방법으로 재시작할 때 발생합니다. 이 도메인은 중간 추론 변화(우리의 “Aha!” 사건; Def. 1)가 불확실성과 정확도 변화와 함께 발생하는지 연구하기 위한 보완적인 테스트베드를 형성합니다. *오른쪽 (공간 조작):* 계획된 합법적 이동 시퀀스가 필요한 RHour 퍼즐; 중간 추론 변화는 하나의 이동 계획에서 다른 것으로 전환하는 것을 반영합니다.

임계값 $`(\delta_1,\delta_2,\delta_3)`$은 조정 가능한 기준입니다: 엄격한 값은 일관된 사전 실패와 드문 사전 변화를 요구하여 정밀도를 우선시하고, 느슨한 값은 재현성을 증가시킵니다. 우리의 실험에서는 이러한 임계값을 보유 개발 슬래브에서 선택하고 부트스트랩 신뢰 구간(App. 12.2)을 사용하여 견고성을 검증합니다. 모든 경우에, $`P_{\theta_k}(\checkmark \mid q_j)`$와 $`P_{\theta_k}(\checkmark \mid q_j, S_{q_j,k}=1)`$와 같은 확률은 각 $(q_j, k)$당 유한 수의 샘플링된 경로에서 추정됩니다.

이 정의는 인지 심리학에서 통찰력에 대한 고전적 특성을 반영합니다: 문제 공간을 갑작스럽게 재구조화하여 해결하는 것입니다. 이러한 변화의 특징에는 “잠깐…“과 같은 명시적인 자기 반성 신호가 포함됩니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



Figure 17



Figure 18



Figure 19



Figure 20



Figure 21



Figure 22



Figure 23



Figure 24



Figure 25



Figure 26



Figure 27



Figure 28



Figure 29



Figure 30



Figure 31



Figure 32



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키