자기 질문으로 성장하는 언어 모델 대안적 사고의 힘

읽는 시간: 9 분
...

📝 원문 정보

- Title: Counterfactual Self-Questioning for Stable Policy Optimization in Language Models
- ArXiv ID: 2601.00885
- 발행일: 2025-12-31
- 저자: Mandar Parab

📝 초록

본 논문은 **대안적 자기 질문(Counterfactual Self-Questioning, CSQ)** 이라는 프레임워크를 제안합니다. 이 방법론은 단일 언어 모델이 자체 추론을 대안적으로 검토하고 수정할 수 있도록 합니다. 기존 방식과 달리 외부 비판자나 다중 에이전트 토론 없이도, 내부적으로 생성된 대안적 비평을 통해 정책 최적화 신호를 형성합니다. 실험 결과는 다양한 모델 크기에 걸쳐 표준 추론 벤치마크에서 일관된 성능 개선을 보여줍니다.

💡 논문 해설

1. **대안적 자기 질문: 문제 해결의 새로운 패러다임** - 이 연구에서는 언어 모델이 스스로 자신의 추론 과정에 대해 대안적인 시나리오를 생성하고 검토하는 방법을 제시합니다. 이는 마치 자신에게 "만약 이 단계가 틀렸다면 어떻게 될까?"라고 질문하는 것과 같습니다.
  1. GRPO: 정책 최적화의 안정적인 기반

    • 대안적 자기 질문은 모델이 생성한 여러 추론 경로를 비교하여 학습 신호를 형성합니다. 이 과정에서 Group Relative Policy Optimization (GRPO) 기법을 사용해 안정적으로 정책을 업데이트할 수 있습니다.
  2. 내부 검토의 힘: 외부 비판자 없이도 성능 개선

    • 대안적 자기 질문은 단일 모델로 내부 검토를 수행하여 외부 비판자를 필요로 하지 않습니다. 이는 특히 대규모 엔SEMBLE이나 저장된 솔루션에 의존하기 어려운 상황에서 유용합니다.

📄 논문 발췌 (ArXiv Source)

# 서론

구조화된 프롬프팅 기법과 같은 체인-오브-사고, 단계별 검증, 특정 도메인 훈련을 통해 대형 언어 모델(LLMs)은 수학적 및 논리적 추론 작업에서 강력한 성능을 보여주었습니다. 그러나 이러한 발전에도 불구하고 LLM 추론은 여전히 취약합니다: 중간 단계의 작은 오류가 종종 전파되고, 모델이 과도하게 자신감 있는 환영을 표시하며, 외부 검증 없이는 실패를 감지하기 어렵습니다. 따라서 추론 신뢰성을 개선하려면 내부적인 실패 모드를 노출하고 수정하는 메커니즘이 필요합니다.

최근 연구에서는 LLM이 자체적으로 생성한 피드백을 통해 스스로 향상될 수 있는지를 탐색하였습니다. Reflexion, STaR, Self-Discover, debate 및 self-rewarding 언어 모델은 이런 방법들이 모델이 반복적으로 추론을 정교화할 수 있음을 보여주었습니다. 그러나 이러한 방식들은 일반적으로 외부 비평가, 다중 에이전트 토론, 광범위한 샘플링 또는 부가적인 검증기 모델에 의존하여 계산 비용과 구조적 복잡성을 증가시킵니다.

반면 인간의 추론은 특정 단계가 잘못되었을 경우를 탐색하고 결론에 이르기 전에 그 결과를 확인하는 것과 같은 타겟화된 대안적 질문에 의존합니다. 이를 통해 LLM 자기 개선의 대안적인 패러다임이 제시됩니다: 외부 검증이 아닌 내부적으로 생성된 대안 비평을 기반으로 한 방식입니다.

본 논문에서는 대안적 자기 질문 이라는 프레임워크를 소개합니다. 단일 언어 모델이 자신의 추론에 대한 대안적 비평을 생성하고 평가하는 이 방법은 초기 체인-오브-사고 솔루션에 대해 “만약 이 단계가 틀렸다면?“이라는 탐색 질문을 생성하고, 대안 추론 경로를 시뮬레이션하며, 그 결과 신호를 사용하여 정책을 세분화합니다. 대안 비평은 기본 모델과 공유하는 파라미터의 가벼운 자기 비평가에 의해 생성되며 추가 학습 구성 요소는 없습니다.

본 접근법은 이전 자기 개선 방법과 세 가지 주요 방식에서 차이점을 보입니다. 첫째, 비평은 단일 정책 롤아웃에서 생성되어 앙상블, 외부 비평가 또는 저장된 성공적인 궤도에 의존하지 않습니다. 둘째, 대안 추론은 모델의 자체 추론 경로 내에서 수행되며 입력이나 데이터 수준에서 수행되지 않습니다. 셋째, 결과적인 비평은 Group Relative Policy Optimization (GRPO)을 사용하여 구조화된 학습 신호로 변환되어 학습된 가치 함수 없이 안정적인 정책 업데이트를 가능하게 합니다.

본 방법론을 수학적 추론 벤치마크인 GSM8K, MATH 및 Minerva 스타일의 양적 추론 작업에서 평가하였습니다. 네 가지 모델 패밀리와 여러 용량 제도에 걸쳐 표준 체인-오브-사고 기반선보다 정확성을 향상시켰으며, 특히 작은 및 중간 크기의 모델에서 가장 큰 개선이 관찰되었습니다. 앙블레이션 연구는 비평 다양성과 최적화 안정성 사이의 균형을 위해 1~2개의 대안 비평가가 가장 좋음을 보여주었습니다.

요약하면, 본 논문은 다음과 같은 기여를 합니다:

  • 대안적 자기 질문 이라는 외부 검증 없이 내부적으로 생성된 대안 비평을 통해 LLM 추론을 개선하는 프레임워크를 제시합니다.
  • 단순한 훈련 및 추론 파이프라인을 소개하여 GRPO를 사용해 대안 비평을 구조화된 정책 최적화 신호로 변환합니다.
  • GSM8K, MATH 및 Minerva 스타일 작업에 대한 일관된 성능 개선을 다양한 모델 크기에서 보여주며 안정성과 확장성을 자세히 분석합니다.

관련 연구

본 연구는 언어 모델의 추론 향상을 위한 자기 개선, 검증, 다중 에이전트 피드백, 대안 추론 및 모델 생성 신호를 사용한 강화 학습과 연관되어 있습니다. 대안적 자기 질문 은 내부적인 궤도 수준 정책 최적화 신호를 구축하는 방법으로 기존 접근 방식을 보완합니다.

자기 개선 및 반복 추론:

여러 가지 방법이 언어 모델이 자체적으로 생성한 피드백을 사용해 자신의 추론을 향상시킬 수 있는지를 탐구했습니다. Reflexion은 메모리 기반의 자가 수정을 도입하고, STaR는 모델에서 생성된 정확한 솔루션으로 개선된 정책을 부트스트랩하며, Self-Discover는 내부 피드백을 통해 새로운 추론 전략을 합성합니다. 자기 일관성 샘플링은 여러 추론 경로를 통합하여 분산성을 줄입니다. 이러한 접근 방식들은 일반적으로 광범위한 샘플링, 재생 버퍼 또는 외부 필터링에 의존하지만, 대안적 자기 질문은 단일 정책 롤아웃에서 대안 궤도를 탐색하여 비평을 생성합니다.

검증, 비평가 및 토론:

또 다른 연구에서는 명시적인 검증을 통해 환영을 줄이는 방법을 탐구했습니다. Chain-of-Verification (CoVe)와 단계별 검증은 중간 추론을 검증하고, 종종 별도의 검증 모델을 사용합니다. 토론 기반 방법과 모델 기반 비평가들은 대립적 상호 작용으로 오류를 노출하며, Constitutional AI는 사전 정의된 원칙을 사용하여 자가 비평을 안내합니다. 이러한 접근 방식은 추가적인 모델, 에이전트 또는 규칙을 도입하지만, 대안적 자기 질문은 단일 정책 설정에서 내재적으로 생성된 대립적인 탐색을 통해 비평을 추출합니다.

대안 추론:

대안 추론은 NLP의 견고성과 인과 일반화를 향상시키는 데 널리 사용되었습니다. 대안 데이터 증강은 모델이 가짜 상관 관계가 아닌 인과 구조를 포착하도록 장려합니다. 논리적 추론 작업도 다양한 가설을 평가하는 데 대안적인 사고를 기반으로 합니다. 본 연구는 입력이나 데이터 수준에서가 아니라 모델 자체의 추론 경로 내에서 대안 추론을 적용하여 추론 및 훈련 중에 내부적 오류 발견이 가능합니다.

강화 학습과 자생적인 보상:

인간 피드백(RLHF)과 정책 최적화 방법(PPO)은 현대 LLM 훈련의 중심입니다. 최근 연구는 모델이 자체 보상 신호를 생성할 수 있음을 보여주었으며, Group Relative Policy Optimization (GRPO)은 상대적인 피드백에서 학습하는 안정적인 프레임워크를 제공합니다. 대안적 자기 질문은 이 연구의 연장선에 있으며, 정책 최적화에 직접 통합할 수 있는 구조화된 궤도 수준 피드백을 생성합니다.

평가 벤치마크:

GSM8K, MATH 및 Minerva 스타일 데이터셋과 같은 수학적 추론 벤치마크는 추론 품질을 평가하기 위한 표준입니다. 스케일링 법칙은 모델 용량의 역할을 강조하지만 구조화된 추론 방법론인 체인-오브-사고 프롬프팅은 추론 전략과 오류 완화가 동등하게 중요함을 보여줍니다. 본 평가는 이러한 확립된 규약에 따릅니다.

이전 연구를 통해 내부적으로 생성된 대안 탐색을 통합한 학습 신호는 여전히 충분히 탐구되지 않았습니다. 기존 방법은 반영, 검증, 토론 또는 보상 모델링에 중점을 두지만, 모델의 추론 경로에 대한 대안적인 대안 생성 및 해결을 체계적으로 수행하지 않습니다. 대안적 자기 질문은 이러한 공백을 메우며 단일 정책 메커니즘으로 내부 검토와 최적화를 위한 구조화된 대안 피드백을 제공하여 외부 비평가에 대한 경량화 및 확장 가능한 대체 방안을 제시합니다.

방법론

대안적 자기 질문(CSQ) 개요. 기본 정책이 초기 추론 궤도를 생성하고, 대안적 자기 질문은 실패 모드를 노출하는 대안 궤도를 생성합니다. 이러한 궤도는 GRPO를 통해 정책 최적화의 상대적인 피드백으로 사용됩니다.

본 논문에서는 Counterfactual Self-Questioning (CSQ) 이라는 훈련 및 추론 프레임워크를 제안합니다. 단일 언어 모델이 자신의 추론에 대한 대안적 비평을 생성하고 평가하는 이 방법은 외부 비평가, 부가적인 보상 모델 또는 다중 에이전트 토론에 의존하지 않습니다. 대신 기본 추론 궤도와 내부적으로 생성된 대안적 대안을 비교하여 구조화된 정책 최적화 신호를 구성합니다. 그림 1은 전체 워크플로를 보여줍니다.

문제 설정

추론 문제의 데이터셋

MATH
\mathcal{D} = \{(x_i, y_i)\},
클릭하여 더 보기

에서 $`x_i`$는 입력 문제를 나타내고 $`y_i`$는 그 정답입니다. $`\pi_\theta`$는 파라미터화된 언어 모델 정책을 나타냅니다. 입력 $`x`$에 대해, 정책은 추론 궤도를 생성한 다음 최종 답변을 제공합니다:

MATH
\tau^{(0)} \sim \pi_\theta(\cdot \mid x), \qquad \hat{y}^{(0)} = f(\tau^{(0)}).
클릭하여 더 보기

이 기본 궤도는 표준 체인-오브-사고 추론에 해당하며 검증되지 않습니다.

우리의 목표는 $`\pi_\theta`$를 내부적으로 생성된 대안적 피드백을 통해 자신의 추론 궤도에서 실패 모드를 식별하고 수정할 수 있도록 향상시키는 것입니다. CSQ의 모든 구성 요소가 동일한 파라미터 $`\theta`$를 공유하며, 대안 생성은 추가적인 모델이나 학습 가능한 파라미터를 도입하지 않습니다.

대안적 자기 질문

기본 궤도 $`\tau^{(0)}`$에 대해 CSQ는 추론 과정의 잠재적인 실패 포인트를 표적으로 하는 세트의 대안 탐색을 생성합니다. 각 탐색은 기본 궤도에 조건화되고, 모델이 잘못된 중간 단계나 누락된 제약 조건과 같은 대체 가설을 고려하도록 유도합니다.

수학적으로, 입력 $`x`$에 대해 $`N_{\text{cf}}`$ 개의 대안 궤도를 생성합니다:

MATH
\tau^{(k)} \sim \pi_\theta(\cdot \mid x, \tau^{(0)}, q^{(k)}), \qquad k = 1,\dots,N_{\text{cf}},
클릭하여 더 보기

여기서 $`q^{(k)}`$는 기본 추론에서 파생된 대안 질의를 나타냅니다. 이러한 질의는 모델이 가정을 수정하거나 다른 해결 경로를 탐색하도록 촉구합니다. 대안 궤도는 잠재적인 오류를 노출하고 복구하는 데 초점을 맞추며, 무작위적으로 다른 의견에 동의하지 않습니다.

각 궤도 $`\tau^{(k)}`$는 후보 답변 $`\hat{y}^{(k)}`$을 생성합니다. 추론 시, $`\{\tau^{(0)}, \tau^{(1)}, \dots, \tau^{(N_{\text{cf}})}\}`$은 경량 검증 메커니즘으로 사용될 수 있습니다. 훈련 중에는 이러한 궤도는 정책 최적화를 위한 비교 그룹을 형성합니다.

GRPO를 통한 정책 최적화

우리는 Group Relative Policy Optimization (GRPO)을 사용하여 $`\pi_\theta`$를 최적화하며, 이 방법은 동일한 입력에 대해 여러 궤도가 이용 가능한 시나리오에 적합합니다. 각 문제 $`x`$에 대해 궤도 그룹

MATH
\mathcal{G}(x) = \{\tau^{(0)}, \tau^{(1)}, \dots, \tau^{(N_{\text{cf}})}\}
클릭하여 더 보기

을 정의합니다.

각 궤도 $`\tau \in \mathcal{G}(x)`$는 스칼라 보상

MATH
R(\tau) = \alpha R_{\text{correct}}(\tau) + \beta R_{\text{repair}}(\tau)
           - \gamma R_{\text{instability}}(\tau),
클릭하여 더 보기

을 받습니다. 여기서 $`R_{\text{correct}}`$는 답변 정확성을 나타내고, $`R_{\text{repair}}`$는 기본 궤도에 있는 오류를 수정하는 궤도를 보상하며, $`R_{\text{instability}}`$는 일관성이 없는 대안 추론을 벌합니다.

GRPO는 그룹 수준 기반선

MATH
b(x) = \frac{1}{|\mathcal{G}(x)|} \sum_{\tau \in \mathcal{G}(x)} R(\tau),
클릭하여 더 보기

을 계산하고 상대적 이점을 정의합니다:

MATH
A(\tau) = R(\tau) - b(x).
클릭하여 더 보기

정책 업데이트는 다음과 같습니다:

MATH
\theta \leftarrow \theta + \eta
\mathbb{E}_{\tau \sim \mathcal{G}(x)}
\left[\nabla_\theta \log \pi_\theta(\tau \mid x)\, A(\tau)\right].
클릭하여 더 보기

모든 궤도가 동일한 정책에 의해 생성되기 때문에 최적화는 대안 추론이 노출하는 수정 패턴을 내부화합니다. 훈련 중, 기본 정책은 명시적인 대안 탐색 없이 더 신뢰성 있는 추론 궤도를 생성하게 됩니다.

데이터셋 $`\mathcal{D} = \{(x_i, y_i)\}`$, 정책 $`\pi_\theta`$, 대안 수 $`N_{\text{cf}}`$ 기본 추론 궤도 생성 $`\tau^{(0)} \sim \pi_\theta(\cdot \mid x)`$ 기본 답변 추출 $`\hat{y}^{(0)}`$ $`\tau^{(0)}`에 조건화된 대안 질의 생성 $q^{(k)}$ 대안 궤도 생성 $\tau^{(k)} \sim \pi_\theta(\cdot \mid x, \tau^{(0)}, q^{(k)})$ 궤도 그룹 형성 $\mathcal{G}(x) = \{\tau^{(0)}, \dots, \tau^{(N_{\text{cf}})}\}$ 모든 $\tau \in \mathcal{G}(x)$에 대한 보상 $R(\tau)$ 계산 $\theta$를 GRPO로 업데이트

구현 세부 사항

실제 사용에서 우리는 대안 궤도의 작은 수, $`N_{\text{cf}} \in \{1,2,3\}`$,을 사용합니다. 이는 비평 다양성과 최적화 안정성을 균형 있게 유지합니다. 단일 대안 궤도는 고립된 산술 오류를 식별하고, 두 개의 궤도는 잘못된 가정 및 누락 제약 조건과 같은 상보적인 실패 모드를 신뢰성 있게 노출합니다. 더 큰 값은 중복과 잡음을 소개하여 감소하는 이점을 제공합니다.

우리는 Llama-3.2-1B-Instruct, Llama-3.2-3B-Instruct, Qwen2-0.5B-InstructMathstral-7B-v0.1과 같은 다양한 용량의 모델에 대해 CSQ를 평가합니다. 훈련은 학습률 $`1\times10^{-6}`$, 3~5 에폭, 배치 크기 4와 그래디언트 누적 2로 수행되며 대안 생성은 256 토큰으로 제한됩니다.

모델에 걸쳐 CSQ는 표준 체인-오브-사고 기반선보다 절대 정확도가 2~10포인트 증가하며, 특히 작은 모델에서 가장 큰 상대적 개선을 보여줍니다. 이 결과는 대안적 자기 질문이 외부 감독이나 대규모 앙상블이 실용적이지 않은 시나리오에서 효과적인 내부 학습 신호를 제공함을 나타냅니다.

실험

우리는 다양한 모델 크기와 모델 패밀리를 사용하여 *Self-Questioning Agents (SQA)*가 에고 드IVEN 비평이 수학적 추론 정확도를 향상시키는지 평가합니다. 이 연구에는 작은, 중간 크기 및 도메인 특화 언어 모델을 포함하며 표준 체인-오브-사고(CoT) 프롬프팅과 일치하는 디코딩 설정에서 통제된 비교를 강조합니다.

실험은 세 가지 질문에 답하기 위해 설계되었습니다:

  1. 에고 드IVEN 비평이 CoT 기준선보다 정확도를 향상시킬까요?

  2. 에고 에이전트 수가 증가함에 따라 성능은 어떻게 변화할까요?

  3. GRPO는 일관되게 에고 생성된 비평 신호를 기본 정책에 통합할 수 있을까요?

특히 언급되지 않는 한 결과는 여러 무작위 시드를 통해 계산 확률성과 정책 최적화를 고려하여 평균화됩니다.

훈련 설정

우리는 표준 추론 평가 프로토콜을 따르고 두 개의 널리 사용되는 벤치마크에서 평가합니다:

  • GSM8K : 약 8.5k개의 학교 수학 문제


📊 논문 시각자료 (Figures)

Figure 1



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키