반복과 진화 더 나은 학습 문제 생성

읽는 시간: 9 분
...

📝 원문 정보

- Title: DéjàQ Open-Ended Evolution of Diverse, Learnable and Verifiable Problems
- ArXiv ID: 2601.01931
- 발행일: 2026-01-05
- 저자: Willem Röpke, Samuel Coward, Andrei Lupu, Thomas Foster, Tim Rocktäschel, Jakob Foerster

📝 초록

최근의 추론 모델 개발은 수학과 코딩 분야에서 인상적인 성과를 보여주고 있다. 그러나 대부분의 접근 방법은 정적 데이터셋에 의존하고 있으며, 이는 기억력 유도와 일반화 능력 제한을 초래할 가능성이 있다는 지적이 있다. 우리는 이러한 패러다임에서 벗어나 모델 훈련 과정에서 다채로운 종류의 합성 수학 문제를 함께 진화시키는 프레임워크인 DéjàQ를 소개한다. 이 진화적 과정은 훈련 과정 내내 모델의 능력에 맞춰 조정되어 학습 가능성 최적화를 목표로 한다. 모델 자체가 훈련 데이터를 변이시키는 두 가지 LLM 주도 전략을 제안하며, 이는 문맥적 세부 사항을 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어진다. 우리는 모델이 새로운 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 주도 변이가 강화 학습 훈련을 개선한다는 것을 발견했다. DéjàQ의 핵심 요소인 생성된 문제의 유효성과 계산 부담 등을 분석한다. 우리의 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 강화할 잠재력을 보여주며, 이를 지원하기 위해 코드를 오픈 소스로 공개할 예정이다.

💡 논문 해설

1. **DéjàQ - 합성 데이터 진화:** 복잡한 문제를 해결하는 모델을 훈련시키기 위한 합성 문제와 정답 쌍의 데이터셋을 생성합니다. 이는 학습 가능한, 검증할 수 있는 문제들을 만들기 위해 진화 알고리즘을 사용합니다. 이를 통해 모델은 자신의 능력에 맞춘 문제를 계속 풀면서 스스로 성장할 수 있습니다.
  1. 단순하지만 효과적인 변이 전략: LLM이 지시하는 방식으로 기존 문제들을 수정하거나 새로운 복잡성과 다양성을 추가하면서도, 문제의 검증 가능성을 유지합니다. 다양한 변이 전략을 비교해보고 그 효과를 분석합니다.

  2. 효율적인 부트스트래핑: 데이터 생성 및 훈련 모두 동일한 모델로 이루어져 있어 공유 인프라를 활용할 수 있습니다. 이는 외부 감독 없이도 계속해서 성장하는 시스템을 만듭니다.

📄 논문 발췌 (ArXiv Source)

maketitle 감사 aketitle
style="width:89.0%" />
DéjàQ의 개요입니다. 우리는 문제-답변 쌍을 아카이브에 유지하며, 각 질문이 적용되는 설정별로 구성됩니다. RLVR 훈련 데이터는 이 아카이브에서 샘플링되며, 다양한 mutators를 통해 지속적으로 업데이트됩니다. 설정 변이자는 설정을 변경합니다 (예: 개인 생활에서 이벤트로), 분산자 변이자는 관련 없는 정보를 도입하고, 기호 변이자는 기본적인 수학 구조를 바꿉니다. 각 문제는 학습 가능성에 따라 점수화되고 유지되거나 대체됩니다.

서론

대형 언어 모델(LLM)의 사후 훈련은 매우 활발한 연구 분야로, 최근 방법들은 실제나 합성 데이터를 활용해 지시어 수행 능력, 코딩 성능, 수학적 추론을 향상시키는 훈련 레시피 설계에 중점을 두고 있습니다. 이들에는 고품질 데이터의 부족과 대규모 계산 리소스 요구라는 두 가지 주요 제약이 포함됩니다. 우리는 이러한 도전 과제를 다음과 같은 연구 질문을 통해 해결합니다:

LLM들이 자체 사후 훈련을 수행할 수 있도록 다양한 학습 가능한 훈련 데이터를 동적으로 생성하는 방법은 무엇인가?

이 질문의 중앙적 동기는 모델의 현재 능력에 맞는 훈련 데이터를 획득해야 한다는 필요성입니다. 훈련 예제들에서 (근-)영향력 없는 변동성이 일반적으로 관찰되며, 이는 학습 신호가 거의 없고 그라디언트 업데이트에 잡음을 추가합니다. 이는 단지 학습을 방해하는 데 그치지 않고 소중한 계산 리소스를 낭비합니다. 이러한 예제들을 수동으로 필터링할 수 있지만, 이는 훨씬 더 큰 문제인 제한적이고 효과가 없는 훈련 데이터의 문제를 단순히 강조할 뿐입니다. 본 연구에서는 DéjàQ라는 방법을 소개합니다. 이 방법은 도전적인 그러나 해결 가능한 문제들로 구성된 데이터셋을 진화시키며, 이를 통해 모델의 학습 진행을 최대화하도록 명시적으로 최적화됩니다.

DéjàQ의 설계는 강화학습에서 입증된 세 가지 보완적인 아이디어를 기반으로 합니다. ACCEL로부터 훈련 데이터와 모델 최적화를 동시에 진화시키는 원칙을 채택합니다. Rainbow Teaming에서 MAP-Elites를 사용해 다양한 훈련 문제들의 구조화된 아카이브를 유지하고, LLM 지도 변이를 통해 검색 공간의 밀집되지 않은 영역에 새로운 고품질 예제들을 생성합니다. 학습 가능성을 학습 가능성 기반 훈련에서 학습 중 데이터 포인트의 예상 유효성 지표로 취급합니다. DéjàQ는 이들 구성 요소를 단일 프레임워크로 통합하여 LLM 사후 훈련을 위한 질-다양성 검색을 통해 검증 가능한 문제-답변 쌍의 데이터셋이 진화하는 것을 가능하게 합니다. 모델은 새로 생성된 문제들을 지속적으로 평가하고 충분히 학습 가능하다고 판단되는 것들만 유지하여 외부 감독 없이 개방형 부트스트래핑을 수행할 수 있습니다.

이 프레임워크를 구현하는 주요 도전 과제는 검증 가능한 문제와 적절한 기술적 난이도의 문제를 동시에 생성하는 것입니다. 이를 위해 우리는 두 가지 보완적인 변이 전략을 도입합니다. 첫 번째는 현재 학습 진행에 더 큰 이익을 제공할 것으로 예상되는 다른 문제로 대체하는 과정식 접근입니다. 두 번째는 모델이 기존 문제의 맥락적 프레임워킹을 수정하거나 솔루션 구조를 제어된 방식으로 변경하여 새 문제를 생성하는 LLM 지도 전략입니다. 구조적인 변화에는 해치지 않는 의미론적으로 일관된 문장인 분산자 삽입과 솔루션의 기본 연산에 대한 기호적 수정이 포함됩니다.

DéjàQQwen2.5-7B-Instruct을 사용하여 in-distribution 및 out-of-distribution 수학 문제를 평가합니다. 우리는 과정 학습과 LLM 지도 변이를 결합한 것이 표준 RL 사후 훈련이나 단독으로의 과정 학습보다 크게 더 나은 성능을 보여주었다는 것을 발견했습니다. 우리는 또한 점수화 함수가 어려운데도 해결 가능한 문제와 결함 있는 문제를 어떻게 구분하는지, 변이자가 아카이브에 얼마나 자주 그러한 오류들을 도입하는지, 그리고 데이터 진화 파이프라인의 리소스 요구 사항을 분석합니다. 우리는 아래에서 주요 기여물을 요약하고 1번 그림에서 방법에 대한 시각적 개요를 제공합니다:

  1. DéjàQ - 합성 데이터 진화: 추론 모델을 위한 검증 가능한 문제-답변 쌍의 데이터셋 생성을 위한 진화 프레임워크.
  2. 단순하지만 효과적인 변이 전략: 단순한 LLM 지도 변이자가 다양성과 복잡성을 증가시키면서도 검증 가능성을 유지하는 데 어떻게 효과적이지 않은지 보여주고, 다양한 변이 전략의 효율성을 경험적으로 비교합니다.
  3. 효율적인 부트스트래핑: 데이터 생성과 훈련 모두 동일한 모델을 사용하여 외부 감독 없이도 공유 인프라를 활용할 수 있는 완전히 부트스트랩된 설정을 가능하게 합니다.
  4. 실증적 검증: DéjàQ가 모델 훈련에 대해 다양하고 학습 가능한 문제를 생성하는 것을 보여주는 실증 연구를 제공합니다.

배경

검증 가능한 보상과 강화학습

LLM의 사후 훈련은 종종 강화학습(RL) 단계를 포함하며, 여기서 각 토큰을 행동으로 취급하고 전환을 기존 컨텍스트에 토큰을 이어붙이는 것으로 정의하는 토큰 수준 마르코프 결정 과정(MDP)이 정의됩니다. 검증 가능한 보상과 강화학습(RLVR)은 자동적으로 검증할 수 있는 보상 신호를 사용해 LLM을 최적화합니다. 수학에서는 이는 근사 답과 비교하는 것에 해당하며, 코드 생성에서는 테스트 스위트와 평가하는 것입니다. 정확히 말하면 RLVR는 다음과 같은 목적 함수를 최대화합니다:

MATH
\begin{equation}
\label{eq:rlvr}
    \ensuremath{\ensuremath{\mathbb{E}}\ifthenelse{\equal{y \sim \ensuremath{\pi}_\theta\ensuremath{\mathopen{}\mathclose\bgroup\left(x\aftergroup\egroup\right)}}{}}{}{_{y \sim \ensuremath{\pi}_\theta\ensuremath{\mathopen{}\mathclose\bgroup\left(x\aftergroup\egroup\right)}}} \left[ r_\text{RLVR}(x, y) - \beta \ensuremath{\ensuremath{\ensuremath{D}_{{\mathrm{KL}}}}\ensuremath{\mathopen{}\mathclose\bgroup\left(\ensuremath{\pi}_\theta\ensuremath{\mathopen{}\mathclose\bgroup\left(y \mid x\aftergroup\egroup\right)} \parallel \ensuremath{\pi}_\text{ref}\ensuremath{\mathopen{}\mathclose\bgroup\left(y \mid x\aftergroup\egroup\right)}\aftergroup\egroup\right)}} \right]}
\end{equation}
클릭하여 더 보기

여기서 $`r_\text{RLVR}(x, y) \in \{0, 1\}`$는 검증 가능한 이진 보상이고, 두 번째 항은 참조 정책으로부터의 편차를 가중치 $\beta$로 조정합니다. 최근에는 그룹 상대 정책 최적화(GRPO) 알고리즘이 수학 도메인에서 강한 성능을 보였습니다. GRPO는 PPO와 달리 학습된 가치 네트워크에 의존하지 않고 여러 세대를 샘플링하고 그로부터 직접 이점을 추정함으로써 간결성과 안정성을 모두 제공합니다.

MAP-Elites

LLM이 훈련하기 위해 도전적이지만 해결 가능한 질문들의 데이터셋을 공진화하기 위해, 우리는 질-다양성 알고리즘인 MAP-Elites를 채택합니다. MAP-Elites는 각 항목 $`x \in {\mathcal{X}}`$에 대해 매핑 $`d: {\mathcal{X}}\to \mathbb{R}^n`$을 통해 특성 설명자를 할당하고, 적합도 함수 $`f: {\mathcal{X}}\to \mathbb{R}`$를 사용해 점수화합니다. 우리의 설정에서는 각 차원이 범주형으로 가정되는 $`d(x)`$의 특성 공간을 유한 그리드로 이산화합니다. 아카이브는 초기에 시드 항목 집합 $\{\x_1, \dots, x_k\}$로 채워져 있으며 각 항목은 해당 셀에 삽입됩니다. 이후 알고리즘은 반복적으로 진행됩니다: 각 단계에서 아카이브에서 항목 $`x \in {\mathcal{X}}`$을 샘플링하고 변이 연산자 $`q: {\mathcal{X}}\to {\mathcal{X}}`$를 통해 수정하여 새로운 항목 $`x' = q(x)`$가 생성됩니다. 변이된 항목 $`x'`$은 $`d(x')`$을 통해 셀에 할당되고, $`f(x')`$을 사용해 점수화됩니다. 현재 해당 셀의 주민을 $y$로 표시합니다. 만약 셀이 비어 있거나 $`f(x') > f(y)`$라면 $`x'`$은 아카이브에서 $`y`$를 대체합니다. 이 절차를 반복적으로 적용함으로써 MAP-Elites는 다양성과 고품질을 동시에 갖춘 아카이브를 구축합니다.

관련 연구

데이터 큐레이션. 본 연구의 핵심은 훈련에 대한 커리어트 데이터 사용이 균일 샘플링보다 계산 리소스를 더 효과적으로 활용한다는 아이디어입니다. 이 아이디어는 비감독 환경 설계(UED)에서 명시적이며, 환경 분포가 온라인으로 적응되어 에이전트들이 현재 정책에 맞춰 환경을 마주치게 합니다. 예를 들어, 최대 후회나 플레이백 버퍼에서 가치 오류가 높은 것들을 우선적으로 처리하거나 다양성을 위해 무작위로 새로운 것을 삽입합니다. 이와 유사한 아이디어는 내재 동기와 호기심 문헌에서 나타납니다. 학습 진행은 예측이나 목표 달성의 개선을 측정하고 이를 자동 커리큘럼 구축에 사용합니다. 심층 RL에서는 학습 진행 신호가 목표 샘플링 또는 작업 선택을 안내하여 에이전트가 성능 변화가 가장 큰 목표 공간의 영역에 집중할 수 있도록 합니다. 최근에는 LLM 지도 오픈 엔드 탐색 방법인 OMNI와 OMNI-EPIC이 학습 진행식 커리큘럼과 기초 모델을 결합하여 작업의 흥미나 독창성을 평가합니다.

본 연구에서는 데이터 큐레이션에 대한 점수화 기준으로 학습 가능성을 채택합니다. 이는 직관적으로 모델이 아직 일관되게 해결할 수 없지만 해결 가능한 문제들을 우선시합니다. 주어진 문제 인스턴스 $`x`$와 모델 매개변수 $`\theta`$에 대해, 다음과 같이 정의됩니다: $`l_\theta(x) = p_\theta(x)\bigl(1 - p_\theta(x)\bigr)`$, 여기서 $`p_\theta(x)`$는 모델이 $`x`$를 올바르게 해결할 확률을 나타냅니다. 후회 기반 기준과 달리, 이는 최적 정책의 반환이나 성능 상한을 추정할 필요가 없으며 특히 오픈 엔드 도메인에서 매우 어려운 작업입니다. 대신 현재 모델 하에서의 성공 확률에만 의존합니다.

LLM을 위한 커리큘럼. 대형 언어 모델(LLMs) 훈련은 일반적으로 사전 훈련과 사후 훈련 두 단계로 구성되며, 이들 모두에 대해 대규모 데이터와 계산 리소스가 필요합니다. 고정된 훈련 예산의 효용을 극대화하기 위해 효과적인 학습 커리큘럼 설계는 주요 전략으로 부상했습니다. 사전 훈련에서는 시퀀스 길이 기반 커리큘럼을 도입하여 효율성을 높이고, 문서 연결 및 쪼개기와 관련된 비효율성을 해결하기 위해 유사한 접근 방식을 적용합니다. 선택적 언어 모델링은 손실 계산을 정보 토큰에 제한합니다. 사후 훈련에서는 최근 최신 모델들이 핸드 크래프트 커리큘럼을 채택하여 가이드를 제공합니다. 수동 설계를 넘어서, 적응형 커리큘럼 학습이 인기를 얻고 있습니다. 고학습 가능성을 갖는 예제들에 대해 업샘플링을 제안하고, 비슷하게 많은 온-폴리 롤아웃을 생성하지만 가장 정보가 있는 샘플들만 훈련합니다. 웹 기반 LLM 에이전트에 진화를 적용하여 점진적으로 더 복잡한 작업을 생성해 지속적인 개선을 촉진합니다. 또한, 동적 결정된 목표 난이도에 근접한 샘플들을 선택하는 것을 제안하고 모델이 너무 쉬운 것과 너무 어려운 것 사이에서 중간점을 찾도록 유도합니다. 마지막으로 이 분야의 연구를 촉진하기 위해, 데이터 생성을 순차적 의사결정 문제로 형식화한 테스트베드를 도입하여 교사 에이전트가 학생 학습 최적화 능력을 평가할 수 있도록 합니다.

추론 모델들. LLM들은 수학과 코딩 같은 분야에서 점점 더 많이 사용되어 복잡한 문제를 중간 단계로 해결하도록 특별히 훈련된 추론 모델의 개발을 촉진합니다. 체인-오브-UGHT(CoT), 트리-오브-UGHT(ToT) 및 자가 일관성은 모델이 정답 전에 추론 경로를 명시하도록 유도하는 기법입니다. 이 능력을 더욱 강화하기 위해 여러 반복 방식들이 제안되었습니다. 이러한 방법들은 종종 추론 시 컴퓨팅 비용 패러다임을 따르며, 추론 시의 계산 비용 증가 대신에 향후 성능 개선을 수용합니다.

합성 수학 문제들. 강력한 수학적 추론 능력을 위해서는 고품질 훈련 데이터가 필요하지만, 이러한 데이터는 비싸고 규모화하기 어렵습니다. 그 결과 합성 데이터가 매력적인 대안으로 부상했습니다. MathScale은 시드 데이터셋에서 시작하여 핵심 개념을 추출하고 LLM이 이를 새로운 질문으로 재결합하도록 지시합니다. PromptCOT도 유사한 경로를 따르지만, 기존 문제들로부터 체인-오브-UGHT 논리를 전달해 새 생성물을 가이드합니다. WizardMath는 GPT-4를 사용하여 학습 데이터를 생성하고 학생 모델을 감독하며 이 두 작업 모두 정적인 외부 오라클에게 위임하므로 내재적으로 후속 성능에 한계가 있습니다. 우리 연구와 동시에 진행된 SPARQ는 해결률로 점수화되는 훈련 세트를 구성하기 위해 질-다양성 진화를 적용합니다. 그러나 우리의 방법과 달리, 이는 단일 라운드의 생성 후 감독형 사후 훈련만 수행합니다. 이는 적응성을 제한하지만, SPARQ는 out-of-distribution 일반화에서 강력한 성능을 보여주며 in-distribution 개선은 여전히 제한적입니다.

개방 엔드 진화의 다양성과 학습 가능한 검증 가능 문제

우리의 목표는 모델 훈련과 병행하여 유지하면서도 검증 가능하고 다양한 고학습 가능성이 있는 추론 문제들의 데이터셋을 진화시키는 것입니다. 이를 위해, DéjàQ라는 사후 훈련 방법을 도입합니다. 이는 모델의 현재 능력에 맞춘 도전적이지만 해결 가능한 문제들을 계속 생성하는 큐레이션 프로세스입니다. 구현 세부사항은 7을 참조하십시오.

훈련 개요

DéjàQ는 동일한 기본 모델과 추론 인프라를 공유하는 두 개의 동시 프로세스로 구성됩니다. 데이터 진화 과정과 RLVR 훈련 과정입니다. 각각을 교사학생으로 부릅니다.

데이터셋 진화. 시드 데이터셋을 사용하여 아카이브를 초기화한 후, 교사는 높은 점수를 받는 부모를 선택하고


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키